ADSP 데이터분석준전문가 시험공부자료 정리
본 내용은
"
ADSP 데이터분석준전문가 시험공부자료 정리
"
의 원문 자료에서 일부 인용된 것입니다.
2025.03.07
문서 내 토픽
-
1. 데이터의 이해 및 정의데이터는 가공되지 않은 객관적 사실이며, 정보는 데이터로부터 가공된 자료입니다. 데이터는 정성적(언어, 문자 형태)과 정량적(수치화된 형태)으로 분류되며, 정형(관계형DB, 엑셀), 반정형(로그, XML, JSON), 비정형(SNS, 영상, 음원) 데이터로 구분됩니다. DIKW 피라미드는 데이터→정보→지식→지혜의 단계적 변환을 설명합니다.
-
2. 데이터베이스 및 DBMS데이터베이스는 일정 구조에 맞게 조직화된 데이터의 집합입니다. DBMS는 관계형(RDB), 객체지향형(ODBMS), NoSQL 등으로 분류됩니다. SQL은 DDL(CREATE, ALTER, DROP), DML(SELECT, INSERT, UPDATE, DELETE), DCL(GRANT, REVOKE) 등으로 구성되며, 데이터베이스의 특징은 공용성, 통합성, 저장성, 변화성입니다.
-
3. 빅데이터의 개념 및 특성빅데이터는 양적 개념뿐 아니라 복잡하고 다양한 질적 개념을 포함합니다. 3V(Volume, Variety, Velocity)와 추가적으로 Value, Veracity를 포함합니다. 빅데이터 출현 배경은 인터넷 확산, 스마트폰 보급, 클라우드 컴퓨팅, 저장매체 가격하락, 분산 컴퓨팅 기술 발전입니다. 빅데이터는 표본조사→전수조사, 사전처리→사후처리, 질→양, 인과관계→상관관계의 변화를 만들어냅니다.
-
4. 데이터분석 기획 및 방법론데이터분석 기획은 분석 대상과 방법을 결정하는 과정입니다. 분석 방법론은 폭포수, 나선형, 프로토타입, 애자일, 계층적 프로세스 모델이 있습니다. KDD 방법론은 데이터선택→전처리→변환→마이닝→평가 단계를 거치며, Crisp-DM은 업무이해→데이터이해→데이터준비→모델링→평가→전개 단계를 포함합니다.
-
5. 통계분석 및 가설검정표본조사는 모집단의 특성을 파악하기 위해 일부를 조사하는 방법입니다. 가설검정은 귀무가설과 대립가설을 설정하고 유의수준(α)과 유의확률(p-value)을 비교합니다. t검정, 분산분석, 카이제곱검정 등이 있으며, 1종오류(귀무가설이 참인데 기각)와 2종오류(귀무가설이 거짓인데 채택)가 발생할 수 있습니다.
-
6. 회귀분석 및 분류분석회귀분석은 독립변수가 종속변수에 미치는 영향을 추정합니다. 단순회귀, 다중회귀, 다항회귀, 릿지회귀, 라쏘회귀 등이 있습니다. 로지스틱회귀는 종속변수가 범주형인 경우 사용하며, 오즈와 로짓변환을 활용합니다. 회귀분석의 가정은 선형성, 등분산성, 정규성, 독립성입니다.
-
7. 데이터마이닝 및 머신러닝데이터마이닝은 방대한 데이터에서 새로운 규칙과 패턴을 찾는 분야입니다. 지도학습(분류분석, 회귀분석, 의사결정트리, 인공신경망)과 비지도학습(군집분석, 연관분석, 차원축소)으로 구분됩니다. 과대적합과 과소적합을 방지하기 위해 데이터 분할(훈련용, 검증용, 평가용)을 수행합니다.
-
8. 군집분석 및 연관분석군집분석은 비지도학습으로 유사한 데이터를 그룹화합니다. 계층적 군집분석(병합형)과 비계층적 군집분석(K-평균, DBSCAN)이 있습니다. 연관분석은 항목 간 조건-결과 패턴을 발견하며, 지지도, 신뢰도, 향상도를 지표로 사용합니다. Apriori 알고리즘을 활용하여 빈발항목집합을 추출합니다.
-
9. 시계열분석 및 예측시계열분석은 시간의 흐름에 따라 관찰된 자료의 특성을 파악하여 미래를 예측합니다. 정상성 가정이 필수이며, 차분과 변환을 통해 정상시계열로 변환합니다. AR, MA, ARIMA 모형이 있으며, ACF와 PACF를 활용하여 모형을 선택합니다.
-
1. 데이터의 이해 및 정의데이터는 현대 정보사회의 핵심 자산이며, 올바른 이해와 정의가 모든 분석의 기초가 됩니다. 데이터를 단순한 숫자나 텍스트가 아닌 의미 있는 정보로 변환할 수 있는 자원으로 인식하는 것이 중요합니다. 데이터의 품질, 출처, 수집 방법을 명확히 정의함으로써 이후 분석의 신뢰성을 확보할 수 있습니다. 특히 빅데이터 시대에는 데이터의 정확한 정의와 분류가 조직의 의사결정 품질을 좌우하므로, 데이터 거버넌스 체계 구축이 필수적입니다.
-
2. 데이터베이스 및 DBMS데이터베이스와 DBMS는 대규모 데이터를 효율적으로 관리하고 활용하기 위한 필수 인프라입니다. 관계형 데이터베이스부터 NoSQL까지 다양한 형태의 DBMS가 존재하며, 조직의 요구사항에 맞는 적절한 선택이 중요합니다. DBMS의 성능 최적화, 보안, 백업 전략은 데이터 자산 보호의 핵심입니다. 클라우드 기반 데이터베이스 서비스의 확산으로 접근성이 높아졌으나, 데이터 일관성과 무결성 유지에 대한 이해는 여전히 필수적입니다.
-
3. 빅데이터의 개념 및 특성빅데이터는 단순히 데이터의 규모가 아닌 다양성, 속도, 가치를 포함하는 종합적 개념입니다. 3V에서 5V 이상으로 확장되는 빅데이터의 특성을 이해하는 것이 현대 데이터 분석의 출발점입니다. 빅데이터 기술은 기존 분석 방법으로는 처리 불가능한 규모의 데이터에서 새로운 인사이트를 도출할 수 있게 해줍니다. 다만 빅데이터 자체가 목표가 아니라 이를 통해 얻는 실질적 가치 창출이 중요하며, 기술과 비즈니스 전략의 균형이 필요합니다.
-
4. 데이터분석 기획 및 방법론체계적인 데이터분석은 명확한 기획과 적절한 방법론 선택에서 시작됩니다. 분석 목표 설정, 데이터 수집, 전처리, 분석, 해석의 전 과정에서 일관된 방법론을 적용해야 합니다. CRISP-DM, KDD 등 검증된 방법론들은 분석 프로젝트의 성공률을 높입니다. 특히 비즈니스 요구사항과 분석 목표의 정렬이 중요하며, 이를 통해 분석 결과의 실무 적용 가능성을 높일 수 있습니다. 반복적 개선과 피드백 루프 구축도 장기적 분석 역량 강화에 필수적입니다.
-
5. 통계분석 및 가설검정통계분석은 데이터 기반 의사결정의 과학적 근거를 제공합니다. 가설검정을 통해 관찰된 현상이 우연인지 유의미한 패턴인지 판단할 수 있으며, 이는 신뢰할 수 있는 결론 도출에 필수적입니다. p-value, 신뢰도, 표본 크기 등 통계적 개념의 정확한 이해가 오류를 줄입니다. 다만 통계적 유의성이 실무적 중요성을 의미하지는 않으므로, 결과 해석 시 맥락과 도메인 지식을 함께 고려해야 합니다. 통계 분석 도구의 발전으로 접근성이 높아졌으나, 기본 원리 이해는 여전히 중요합니다.
-
6. 회귀분석 및 분류분석회귀분석과 분류분석은 예측 모델링의 핵심 기법입니다. 회귀분석은 연속형 변수의 관계를 파악하고 미래값을 예측하는 데 효과적이며, 분류분석은 범주형 결과를 예측합니다. 선형 모델부터 복잡한 비선형 모델까지 다양한 기법이 존재하며, 문제의 특성에 맞는 선택이 중요합니다. 과적합 방지, 변수 선택, 모델 평가 등 실무적 고려사항들이 모델의 실제 성능을 결정합니다. 해석 가능성과 예측 정확도 사이의 트레이드오프를 이해하고 상황에 맞게 균형을 맞추는 것이 필요합니다.
-
7. 데이터마이닝 및 머신러닝데이터마이닝과 머신러닝은 대규모 데이터에서 패턴과 지식을 자동으로 발견하는 강력한 도구입니다. 머신러닝의 발전으로 이전에는 불가능했던 복잡한 문제들을 해결할 수 있게 되었습니다. 지도학습, 비지도학습, 강화학습 등 다양한 패러다임이 존재하며, 문제 유형에 따라 적절한 알고리즘을 선택해야 합니다. 다만 머신러닝 모델의 블랙박스 특성으로 인한 해석 어려움과 데이터 편향 문제는 신중한 검토가 필요합니다. 기술적 우수성만큼 윤리적 책임과 투명성도 중요한 고려사항입니다.
-
8. 군집분석 및 연관분석군집분석과 연관분석은 데이터의 숨겨진 구조와 관계를 발견하는 탐색적 분석 기법입니다. 군집분석은 유사한 특성을 가진 개체들을 그룹화하여 시장 세분화, 고객 분류 등에 활용되며, 연관분석은 항목 간의 관계를 파악하여 추천 시스템, 마케팅 전략 수립에 유용합니다. K-means, 계층적 군집화, Apriori 알고리즘 등 다양한 기법들이 있으며, 각각의 장단점을 이해하는 것이 중요합니다. 결과 해석 시 통계적 검증과 비즈니스 타당성을 함께 고려하여 실무 적용 가능성을 높여야 합니다.
-
9. 시계열분석 및 예측시계열분석은 시간 순서를 가진 데이터의 패턴을 파악하고 미래를 예측하는 중요한 분석 기법입니다. 추세, 계절성, 순환 패턴 등 시계열 데이터의 특성을 정확히 이해하는 것이 예측 정확도를 높입니다. ARIMA, 지수평활, Prophet 등 다양한 모델이 존재하며, 데이터의 특성과 예측 목적에 맞는 선택이 필요합니다. 최근 딥러닝 기반의 LSTM, Transformer 등 신기술도 주목받고 있습니다. 다만 시계열 예측의 불확실성을 인식하고, 신뢰도 구간과 함께 결과를 제시하는 것이 의사결정 품질을 높입니다.
