3줄 요약
어떤 시험? 빅데이터 분석 자격 증명을 위해 새롭게 개설된 자격 시험
공부법? 수험서로 개념 잡고 캐글 문제풀이!
이것만은 꼭! 코드는 절대 눈으로만 보지 마시고 직접 타이핑 해보세요
들어가며
이번 글에서는 빅데이터 분석기사 실기시험에 대한 정보와 공부법을 소개해 드리겠습니다.
시험 일정
한국데이터산업진흥원(Korea Data Agency) 주관으로 연 2회(상, 하반기) 시행되며, 시험 접수는 데이터자격검정에서 합니다. 필기시험 결과 발표 후 약 1달 뒤에 실기시험에 접수할 수 있고 접수 종료 후 약 한달 뒤에 실기시험이 시행됩니다. 그래서 필기시험 합격 후 실기시험을 준비한다면 두 달 정도의 시간이 있습니다. 2022년도 시험 일정은 아래와 같습니다.
회차 | 실기 접수기간 | 실기 시험일 | 최종 결과발표 |
---|---|---|---|
4회 | 5/23 ~ 27 | 6/25 | 7/15 |
5회 | 11/7 ~ 11 | 12/3 | 12/23 |
합격 기준
필기시험을 합격하면 실기시험 응시 자격이 주어지며, 필기시험 합격 시점으로부터 2년 내 실기시험에 응시하여 합격하면 자격증을 획득하게 됩니다.
실기시험은 주관식 총 14문항/100점으로 60점 이상을 획득하면 합격입니다. 주관식은 단답형과 작업형으로 나뉩니다. 작업형은 문제 형태에 따라 유형 1과 유형 2가 있습니다.
- 단답형 : 문제에서 묻는 개념이나 계산 결과를 주관식으로 작성
- 작업형 유형 1 : 데이터셋을 문제에서 요구하는 조건에 따라 전처리해 결과를 출력
- 작업형 유형 2 : 데이터셋으로 학습한 모델로 테스트 데이터를 예측
실기시험의 문제 유형별 문항수 및 배점은 아래와 같습니다.
구분 | 문제 유형 | 문항수 | 배점 | 시험시간 |
---|---|---|---|---|
실기 | 단답형 | 10 | 30 | |
작업형 1 | 3 | 30 | ||
작업형 2 | 1 | 40 | ||
총계 | 14 | 100 | 총 180분 |
유형 2는 단 1문제임에도 배점이 가장 높은 40점으로, 실기시험의 당락을 결정하는 가장 중요한 문제입니다. 문제 유형별 제가 했던 공부법은 아래에서 소개하겠습니다.
공부법
주교재 선정
제 경우 교재 선정할 때 가장 중요한 요소는 프로그래밍 언어였습니다. 다뤄본 적 없는 R보단 파이썬이 익숙했기 때문에 파이썬 코드가 포함된 교재를 골랐습니다. 파이썬으로 작성된 공개적, 프리렉, 이기적 세 가지 수험서 중 공개적교재를 선택했습니다.
2022 공개적 빅데이터 분석기사 실기 (와이즈인컴퍼니)
와이즈인컴퍼니에서 출간한 빅데이터 분석기사 실기 대비책입니다. 작업형 문제 풀이를 위한 기본적인 이해를 다지는데 도움이 됐습니다.
2022 공개적 빅데이터 분석기사 실기 / 404 페이지 / 정가 34,000원
- 초급자가 이해할 수 있을 정도로 단순화한 머신러닝 프로세스가 설명되어 있습니다. 분류문제 유형 외에도 회귀분석, 군집분석, 연관규칙분석 알고리즘을 코드와 함께 소개하고 있어서 머신러닝 알고리즘을 전반적으로 파악할 수 있었습니다.
- 교재에 단답형 관련된 내용이 딱 4장뿐입니다. 단답형 공부는 다른 교재로 해야 합니다.(필기시험 준비할때 보셨던 교재를 보셔도 됩니다.) 기본적인 내용 이해에는 도움이 됐지만, 쉽게 설명하느라 설명이 누락된 부분도 있습니다.
전반적으로 빅분기 실기를 위한 개론서 느낌이었고, 어떤 데이터셋이 나와도 원하는대로 주무를 수 있으려면 직접 코딩을 많이 해보는 방법 뿐입니다.
Big Data Certification KR
빅분기 실기 준비의 또 다른 주교재는 캐글(kaggle)입니다. 캐글은 데이터 분석가들끼리 데이터셋과 코드를 공유하고 토론하는 데이터 사이언스 커뮤니티입니다. 빅분기 수험생들을 위한 페이지(Big Data Certification KR)가 있어서 많은 수험생들이 애용하고 있습니다.
- 튜토리얼, 시험 전 주의사항 등 빅분기 시험에 대한 유용한 자료를 제공합니다.
- 작업형 예상문제를 풀어보고, 답안지와 확인하고 토론할 수 있습니다.
- 사람들과 같이 문제를 풀어보고 내 알고리즘의 정확도가 몇 등인지 순위를 매겨볼 수 있습니다.(컴피티션)
부교재 : 인프런 빅분기 실기 무료강의
대구 빅데이터 활용센터에서 공익적 목적으로 만든 빅데이터 실기 무료강의입니다.(링크) 초급자를 대상으로 최대한 간단하게 설명하려고 노력한 강사님의 정성이 느껴지는 강의입니다. 코드 작성이 익숙하지 않으시다면 내용이 조금 어렵더라도 한 번 보시는걸 추천합니다.
공부 기간 : 4주
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
5/29 | 30 | 31 | 6/1 | 2 | 3 | 4 |
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 빅분기(실기) |
5월 28일 SQLD 시험이 끝난 다음날부터 빅분기 실기 공부를 시작했습니다. 실제 코드를 짜보면서 준비할 생각으로 한 달 정도 넉넉하게 시간을 잡고 준비했습니다.
주차별 공부법
머신러닝 프로세스가 낯설었던 초반에는 교재의 코드를 따라서 작성해보며 교재 1회독을 했습니다. 다음에는 인프런 인강을 들으면서 인강에 소개된 문제를 따라서 풀어봤습니다. 이후에는 캐글 빅분기 커뮤니티에 있는 작업형 1, 2유형을 모두 풀어보면서 예상 유형과 문제를 푸는 감각을 익혔습니다.
1주차 : 교재 1회독
가장 먼저 앞서 소개해드린 인프런 인강을 봤습니다. 처음부터 보다가 작업형 유형 2를 해설하는 부분부터 직관적으로 설명이 와닿지 않아서(“왜 저렇게 하지?”라는 의문이 생김) 중단하고 수험서를 펼쳤습니다.
이후에는 수험서를 정독했습니다. 교재 코드를 따라서 쳐보면서 전체적인 프로세스를 이해하고자 했습니다.
필기시험 후기에서 말씀드렸듯이 ① 분석 주제를 기획하고, ② EDA, 데이터 시각화와 전처리 과정을 거쳐, ③ 여러 분석기법으로 모델링하고, ④ 그 결과를 해석하고 활용하는 일련의 흐름을 기억하세요.
교재에서 소개되는 18개 모델링 알고리즘이 각각 어떤 문제에 사용되는지 정리하고, 코드 스니펫은 따로 메모했습니다.
2주차 : 인프런 인강 → 교재 연습문제 2회차 풀이
교재 1회독을 마치고 인프런 인강을 다시 이어서 봤습니다. 확실히 교재를 읽기 전보다 강의 내용이 잘 이해됐습니다. 인강 내용은 길지 않았는데, 강의 중 나오는 문제를 먼저 풀어본 뒤 강의를 듣느라 시간은 좀 걸렸습니다.
강의를 다 듣고 가장 먼저 준비해야겠다고 생각했던게 작업형 2 유형이었습니다. 작업형 2 답안 제출을 못해서 0점을 받으면 불합격이기 때문입니다. 다행인 점은 작업형 2는 지난 회차 모두 분류문제가 출제되어서 데이터 분석 프로세스가 어느 정도 정형화되어 있었습니다.
예를 들면, 어떤 분류문제든 데이터셋에서 대략 아래와 같은 전처리 흐름을 갖습니다.
- 데이터를 불러와서
- EDA(탐색적 데이터 분석)를 수행하고
- 불필요한 속성을 제거하고
- 결측치를 처리하고
- 문자형 데이터를 인코딩하고
- 파생변수를 만들고
- 정규화/표준화를 수행한다
전처리 이후에도 여러 단계가 있긴 하지만 요지는 전체 흐름을 이해해 코드로 만들 수 있으면 작업형 2를 풀 수 있다는 것입니다. 그래서 2주차에는 작업형 2 코드를 반복하면서 내 손에 익은 나만의 템플릿을 만들었습니다.
Google Colaboratory로 공부하신 코드를 관리하시면 어디서나 코드에 접근하고 코드를 실행해볼 수 있습니다!
3주차 : 캐글 작업형 1 예상문제
작업형 2 유형이 어느 정도 익숙해진 다음에는 작업형 1 문제를 집중적으로 풀었습니다. 작업형 2 유형 템플릿을 달달 외우더라도, 문제에 나오는 데이터셋을 가공하지 못하면 무용지물입니다. 작업형 1은 데이터를 문제가 제시하는 조건에 따라 가공하는 능력을 요구하므로, 작업형 2 유형과도 연관이 있습니다.
캐글에 올라와 있는 작업형 1 예상문제를 모두 풀었습니다. 문제가 안풀리면 풀릴 때까지 코드를 변형시켜보면서 끈질기게 고민하느라 문제풀이 속도는 느렸지만 문제 해결력을 키우는데는 도움이 된 것 같습니다.
4주차 : 캐글 작업형 2 예상문제 → 캐글 작업형1, 2 복습 + 단답형 대비
4주차에는 캐글에 있는 작업형 2 예상문제들을 풀면서 최종적으로 작업형 2에 대한 대비를 했습니다. 이전까지 분류문제만 나오긴 했지만, 다음 시험에는 회귀분석, 군집분석, 연관분석 등 다른 유형이 얼마든지 나올 수 있을 것이라고 생각해 K-means, DBSCAN 등 알고리즘 코드도 다시 살펴봤습니다.
시험 직전에는 단답형 문제를 대비하기 위해 필기시험 교재의 주요 개념을 키워드 위주로 복습했습니다. 수제비 커뮤니티의 Daily 문제 풀이도 도움이 되었습니다.
작업형 2 유형에 자신있으시다면 캐글에서 컴피티션(Competition)에 도전해보세요! 같은 문제를 푼 다른 사람들과 순위를 비교해볼 수 있습니다.
시험 후기
시험 준비물
- 필수 : 신분증
- 선택 : 수험표, 필기구
현장 후기
시험은 10시 정각에 시작하며, 시험 시간 절반이 지난 11시 30분부터 퇴실할 수 있습니다. CBT 시험이라 모든 응시과정은 PC로 진행됩니다. 제가 응시했던 제4회 시험의 체감 난이도는 쉬운 편이었지만 작업형 2 유형이 기존과 약간 다르게 출제된 점은 당황스러웠습니다.
- 시험 환경(IDE)은 많은 후기에서 입증되었듯 열악합니다. Jupyter Notebook이나 Google Colab으로만 연습하다가 시험장에 간다면 많이 당황스러울 수 있습니다. 최소한 Kdata에서 제공하는 구름 IDE 체험하기 환경에서 작업형 예제는 꼭 풀어보시길 바랍니다.
- 단답형은 수제비 카페의 Daily 문제를 풀어본게 큰 도움이 됐습니다. Sqoop, 최소제곱법, 드롭아웃, SOM 등 Daily 문제에서 예측한 문제들이 정말 많이 나왔습니다.
- 작업형 1은 캐글 작업형 예상문제를 푼게 도움이 됐습니다. 날짜 조건으로 데이터를 조회하는 문제가 있었는데 datetime 관련 예상문제를 풀어본 덕분에 쉽게 맞출 수 있었습니다.
- 작업형 2는 이전까지 나왔던 이진분류 유형이 아닌 다지분류 문제가 나왔습니다. 다지분류는 처음이었지만 어쨌거나 분류문제와 같은 방식으로 풀 수 있었습니다. 개인적으로는 회귀문제 등 분류문제가 아닌 유형이 나올 수도 있을 것 같습니다.
지극히 주관적인 총평
취득 난이도 : 🌕🌕🌗🌑🌑
우선 코딩할 줄 아니까 쉽게 따겠지-라고 생각했던 건 오산이었습니다. 그렇지만 평소에 관심 있던 데이터 분야라서 필기와 실기 모두 배운다는 생각으로 준비하는 내내 재미있게 공부했습니다. 하반기부터는 ADP를 준비해보려고 하는데, 많이 어렵다고 하니(그래보임) 난이도 척도를 7점 만점으로 변경해야하지 않을까 싶습니다..
유용성 : 🌕🌕🌕🌑🌑
빅데이터 분석기사는 준비 과정을 돌이켜보면 확실히 ADsP보다는 준비할 게 많았습니다. 하지만 기사 자격이 보통 관련학과 학사 정도의 경력으로 인정받는 걸 감안하면 취업시장이나 기업에서의 유용성은 기대만큼은 아닐 것입니다. 특히 통계, 데이터쪽은 그 분야가 갖는 전문성 때문에 석사 이상의 전문가를 구하는 경우가 많죠. 그래도 그 길을 걸어가려는 분들께 이 시험이 유의미한 발자국이리라 생각합니다.
아무쪼록 이 글을 보시는 분께 바라는 결과가 있으시길 바랍니다🙏