k-NN, 나이브 베이즈
- 최초 등록일
- 2012.06.21
- 최종 저작일
- 2012.05
- 14페이지/ 한컴오피스
- 가격 4,000원
소개글
데이터마이닝 강의시간에 과제로 내주신 엑셀마이너 실습입니다.
목차
7.1 Personal Loan Acceptance
7.2 Predicting Housing Median Prices
8.1 Personal Loan Acceptance
8.2 Automobile Accidents
이번 실습을 하면서...
본문내용
7.1 Personal Loan Acceptance
a. 범주형 변수 중 3개 이상의 범주를 더미변수로 변환
데이터를 학습용(60%), 평가용(40%) 데이터 집합으로 분할
k=1이고 cut-off=0.5일때 k-NN 결과창
평가용 데이터에 대한 혼돈행렬을 살펴보면 실제 성공에 대하여 성공이라고 분류한 경우가 130명, 성공이지만 실패라고 분류한 경우가 64명, 실패지만 성공이라고 분류한 경우가 18명, 실패를 실패라고 분류한 경우가 1788명이다.
분류모형의 성과를 측정하기위하여 리프트 차트를 보면 분류가 비교적 잘 되고 있다고 볼 수 있다. 또한 Deciles를 보게 되면 앞쪽 막대가 높은 것으로 분류가 잘 되고 있다고 볼 수 있다.
---------------------------<중략>---------------------------
8.2 Automobile Accidents
하지만 데이터 양이 너무 많아 더미변수로 변환하는데 어려움이 있으므로 If 함수를 통해 더미변수로 변환한다.
a.
나이브 베이즈 분석을 통해서 기본 정보 데이터를 토대로 INJURY가 발생 했을지 발생하지 않았을 지에 대하여 판단 해 볼 수 있다. 더 이상 데이터를 구할 여건이 되지 않으면 기존에 있던 과거의 경험을 바탕으로 분석을 해야 된다.
b.
1)
2)
처음 12개의 레코드로 나이브 베이즈를 적용한 결과 창
INJURY가 1일 때
Traf=0 , weather=1이면 0.99*0.67=0.6633
Traf=1 , weather=1이면 0*0.67=0
Traf=2 , weather=1이면 0*0.67 = 0
Traf=0 , weather=2이면 0.99*0.33=0.3267
Traf=1 , weather=2이면 0*0.33=0
Traf=2 , weather=2이면 0*0.33=0
3)
12개의 데이터를 cut-off가 0.5임을 이용하여 나이브 베이즈를 실행시킨 결과이다. 실제로 자동차 사고에 상해가 있었지만 상해가 있다고 예측한 값이 0이어서 민감도는 0이다. 전체적인 에러는 25%가 발생했다.
참고 자료
없음