데이터마이닝2
- 최초 등록일
- 2011.01.20
- 최종 저작일
- 1997.01
- 41페이지/ 압축파일
- 가격 4,500원
소개글
데이터마이닝 수업을 들으며 수행했던 과제 내용입니다. 자세한 방법과 풀이과정이 적혀 있으므로 참고하셔서 사용하시면 좋을것 같습니다.9개 엑셀파일과 총정리한 1개 한글파일이 있습니다.
목차
제2장
문 제 1
1 회귀분석
-의사결정트리
-회귀분석과 의사결정트리의 차이점
2 고객관계관리방안
-인공신경망
-클러스터링-KMEANS
-CRM을 위한 조원토의
제2장
문 제 2
1 가장좋은방법론:베이지안
2 다른방법론과의 변수관계로본 차이
-회귀분석
-의사결정트리
-인공신경망
본문내용
제1장 1번문제
(문제1) 주어진 자료에서 CCAvg(Avg. Spending on Credit Cards per month, 이하 CCAvg)를 설명하는 변수를 회귀분석과 의사결정트리(Regression Tree이용)로 찾아서 서로 비교하시오. 차이가 발생한다면 그 이유는 무엇인가?
1. 회귀 분석(Regression)
데이터의 전처리를 Data Partition 하였다. Data Partition을 선택하였으나 과제의 주어진 자료의 row가 2500이어서 체험판에서는 사용이 불가능 하다는 것이다. 600개 이상의 row를 초과할 수 없기 때문에 처음 600개로만 데이터를 처리하고자 한다고 한다는 내용으로 지난 중간고사 대체과제시에 나타났던 문제와 동일한 것이다. 현재 본 학생(경영03이광우)의 컴퓨터로 작업을 하고 있고 오후에 학교에서 정식판으로 분석해 그 값의 의미를 약간 추가하고자 한다.
일단 모든 변수들을 Partition 대상에 집어넣었고 문제에서 주어진 대로 specify percentages에서 Training Set, Validation Set, Test Set의 비율을 50% : 30% : 20%으로 설정하려고 하였으나 여기에서도 문제가 발생했다. Training Set의 자료는 200개를 초과할 수 없다는 다음과 같은 창이 생겼다.
600개의 자료를 가지고는 Training Set의 비율을 최대 33.%로 밖에 할 수가 없다는 문제가 발생한 것이다. 그래서 이대로 과제를 수행한다면 처음 600개의 자료만 가지고 과제를 수행하는 것도 문제이거니와 문제의 요구사항 대로 Training Set, Validation Set, Test Set의 비율을 50% : 30% : 20%으로 설정하지 못하기 때문에 다르게 접근하였다. Training Set의 자료는 200개를 초과할 수 없기 때문에 Training Set의 비율을 50%로 가져가기 위해서는 자료가 400개가 필요한 상황이다. 즉 이말은 전체 2500개의 자료 중에서 Data Utilities를 이용하여 400개의 자료를 랜덤하게 뽑아서 그것을 바탕으로 과제를 수행하는 방법을 사용하더라도 통계적으로 큰 문제가 없을 것으로 보아 이 방법을 고려해 보게 되었다. 아래의 그림처럼 Data Utilities에서 Sample from Worksheet를 사용하여 400개의 자료를 표본추출하였다.
참고 자료
없음
압축파일 내 파일목록
과제2차-1번(신용관련)엑셀/과제1-1의사결정트리(정식판).xls
과제2차-1번(신용관련)엑셀/과제1-1회귀분석및트리(체험판).xls
과제2차-1번(신용관련)엑셀/과제1-2인공신경망(체험판).xls
과제2차-1번(신용관련)엑셀/과제1-2클러스터링(정식버전).xls
과제2차-2번문제(치료효과)엑셀/2-2번정리베이지안.xls
과제2차-2번문제(치료효과)엑셀/과제2-2-2공신경망.xls
과제2차-2번문제(치료효과)엑셀/과제2_RT_NODE2.xls
과제2차-2번문제(치료효과)엑셀/과제2_regeressiontree.xls
과제2차-2번문제(치료효과)엑셀/문제2_회귀재분석.xls
마이닝2차과제15조.hwp