데이터마이닝 6장 연습문제
- 최초 등록일
- 2007.11.14
- 최종 저작일
- 2007.11
- 13페이지/ 한컴오피스
- 가격 1,500원
소개글
자유아카데미 데이터마이닝 방법론의 6장 연습문제를 SAS-Eminer 프로그램을 이용하여 푼 것입니다.
목차
제 6장. 예측모형에 대한 평가
분석사례 1 : 리프트 그래프를 이용한 모형평가
분석사례 2 : 사전확률과 이익을 고려하기
분석사례 3 : Threshold-based 그래프
본문내용
p206 <교차(Cross) 리프트 그래프 (Cumulative %Response)>
위의 그래프는 회귀노드에 대해 분석용, 검증용, 테스트 데이터에 관한 리프트 그래프를 함께 표현한 교차 리프트 그래프이다. 최고의 예측력을 가지도록 학습이 이루어진 연습용 데이터의 성능이 가장 높고 그 다음이 테스트용, 검증용 데이터 순임을 알 수 있다. 그러나 전반적으로 세 데이터 간의 리프트 그래프들이 크게 다르지 않은 것으로 보아 안정성(일반화 가능성) 있는 예측모형이라고 볼 수 있다. 의사결정노드와 신경망 노드에 대한 교차 리프트 그래프도 그려서 살펴 본 결과, 역시 위와 유사한 그래프를 가졌다.
p207 < 리프트 데이터 (Regression 노드) >
위의 그림은 리프트 그래프 윈도우에서 리프트 데이터 보기 아이콘을 클릭해 리프트 그래프 관련정보들을 데이터 형태로 본 것이다. 여기에서는 각 등급에 해당하는 사후확률의 절단값을 알 수 있는데, 예를 들어 연습용 데이터에 의한 상위 50%에 해당하는 절단값은 0.120이다.
리프트 그래프 윈도우에서 풀다운 메뉴의 형식, 수평축 간격 설정을 선택 후 set horizontal scale 대화상자에서 각각 2%, 20%단위로 수평축 간격을 변경해 보았다.
(1-특이도)를 x축으로 삼고, 민감도를 y축으로 삼아 ROC그래프를 그렸다. 그래프 아래의 면적이 넓을수록(1에 가까울수록) 예측모형의 성능이 좋음을 나타내는데, 육안상으로는 전반적으로 모형들의 성능이 좋으며 그 중에서도 의사결정나무 모형의 성능이 가장 좋은 것을 알 수 있다. 하지만 객관적인 수치로 모형의 성능을 측정하기 위해 실제로 면적을 구하면 다음과 같다.
BUYTEST 데이터세트의 변수 `RESPOND`의 역할을 target으로 삼고, 변수 ‘C1~C7, PURCHTOT`의 역할을 rejected로, 변수 BUY6, 12, 18의 변수측도를 interval로 수정했다.
참고 자료
없음