데이터마이닝 출석 수업 대체 과제물 방송통신대
- 최초 등록일
- 2021.03.08
- 최종 저작일
- 2020.01
- 9페이지/ MS 워드
- 가격 7,000원
소개글
"데이터마이닝 출석 수업 대체 과제물 방송통신대"에 대한 내용입니다.
목차
1. 빅데이터 시대에 접어들면서 데이터마이닝 기법이 활발하게 이용되고 있다. ‘데이터마이닝이 빅데이터 분석에 유용하다’는 점에 대해 자신의 견해를 논하시오. 또한 데이터마이닝을 이용한 빅데이터 분석 사례(교재 외)를 조사하여 요약하시오.
2. 담당교수 홈페이지 자료실의 타이태닉 데이터(titanic.csv)를 다운로드한 이후 로지스틱 회귀모형과 나무모형을 적합하시오. 분석 결과를 바탕으로 시사점을 도출하시오.
3. R에 내장된 iris 데이터(Fisher의 붓꽃자료)의 Species를 예측하는 나무모형을 구현하고 자 한다. 독일신용데이터의 나무모형 구현 절차를 참조하여 분류나무모형을 적합하고 결과를 설명하시오.
4. 아래와 같은 분할표 주어져 있을 때, (1)에서 (3)까지 작업을 수행하시오. 단, Y는 출력 변수이고 X1과 X2는 입력변수이다. (입력변수와 출력변수 모두 범주형 변수임에 유의하시오.)
5. 배깅, 부스팅, 랜덤포레스트 중에서 극단값에 더 예민하게 반응하는 앙상블 방법은 무엇 인지 그 이유와 함께 서술하라.
참고문헌
본문내용
데이터 웨어하우스의 발전과 더불어 방대한 양의 데이터에서 드러나지 않는 유용한 정보 또는 지식을 추출하는 데이터마이닝 기법의 등장은 필연적이라고 할 수 있다. 데이터 저장 기술이 발전하여 과거와 비교할 수 없을 정도로 많은 데이터를 보유한다 하더라도 국소적인 부분만 조회되거나 데이터가 수치적인 형태로 적절히 변환되지 않는다면, 객관적인 분석이 가능하지 않게 된다. 따라서, 이러한 한계를 극복하기 위해 데이터를 적절한 형태로 정제, 가공, 탐색하고 정보의 패턴을 분석하는 일련의 과정을 데이터마이닝의 정의라고 할 수 있다. 데이터마이닝의 정의에서 더 나아가 데이터마이닝의 유용하게 하는 차별점 점은 크게 두 가지라고 생각한다.
첫째, 기존의 통계적 분석과 다른 방법을 제시한다. 통계적 분석은 가설설정과 실험을 통한 검증 목적으로 이루어진다. 하지만 데이터마이닝은 데이터 확보가 선행된 후, 데이터에 내재된 패턴 또는 연관성을 발굴하여, 분석 대상이 새로운 데이터가 유입될 경우, 이에 대한 예측을 이행할 수 있는 모형을 도출한다. 데이터 마이닝은 빅데이터에 직접 모형을 반복적으로 적합하며 실험을 수행하면서 최적의 모형에 도달할 수 있다. 따라서 데이터의 특성이나 목적, 필요에 따라 직접 모형을 적합하고 체험하는(heuristic) 방법을 제시한다고 할 수 있다.
둘째, 데이터마이닝 기법은 정형화된 데이터 뿐 아니라 비정형데이터의 수치적인 분석 또한 가능케 하였다. 데이터마이닝의 핵심은 데이터를 분석가능한 형태로 수치화 하는 전처리 과정이 선행되어야 한다는 점이다. 이러한 전처리 과정의 발전은 정형 데이터 뿐 아니라, 텍스트, 이미지, 음원과 같은 비정형 데이터으로까지 분석 영역을 넓히게 되는 계기가 되었다. 텍스트는 각 단어를 토큰화 하여 인덱스를 수치화 하고, 각 단어의 벡터를 행렬화 하여 분석이 가능하다.
참고 자료
장영재, 김현중, 조형준, [데이터마이닝], 한국 방송통신대 출판 문화원, 2016.
이대웅, 문상호, 이효주, 이소담, [데이터마이닝 분석방법을 활용한 고령자의 자살위험 예측요인 분석], 한국정책학보, 2016