[데이터 마이닝] 통계적 데이터 마이닝(연관성 규칙)
- 최초 등록일
- 2005.06.13
- 최종 저작일
- 2005.06
- 11페이지/ 한컴오피스
- 가격 1,000원
목차
1.서론
2.본론
3.결론
본문내용
위와 같은 교차표를 얻을 수 있다. 위의 평가는 물론 트레이닝 자료에 재적용하여 나온 것이므로 다소 과다할 것으로 예상된다. 트레이닝 자료와 테스팅 자료를 구분하지 않은 것은 전체 1000개의 자료 중 beer를 구매한 빈도수가 그렇게 많지 않으므로, 자료를 나눌 경우 트레이닝에서 과소한 beer 구매 자료로 인해 적절한 규칙의 도출이 어려워질 수도 있기 때문이다. 우선 이러한 자료를 토대로 이 소매 업체에서는 교차판매를 통한 매출액 증대를 꾀할 것이다. 따라서 beer=T, 즉 beer를 구입할 것이라고 예측된 고객들의 특성에 따라 교차판매촉진 등을 시도하여 beer의 판매를 높이기 위한 노력을 할 것이다. 따라서 우리가 가장 관심을 가질 부분은 $A-beer가 T인 자료이며 $A-beer가 T인 자료, 즉 beer를 구매하리라 예측된 220개 자료 중 실제 beer를 구매한 사람은 70.46%인 155명이다. 반대로 구매하리라 예측했지만, 실제로 beer를 구매하지 않은 사람은 29.54%인 65명이었다. $A-beer가 F인 자료도 알아보도록 하자. beer를 구매하지 않으리라 예측한 780명 중 82.31%인 642명이 실제로 구매를 하지 않았고, 17.7%인 138명의 사람들은 실제로 구매를 했다. 여기서 17.7%의 예측 오류율에도 관심을 가져보도록 하자. beer를 구매하지 않으리라 예측한 사람들 중에서도 실제로 구매한 사람이 있다는 의미이므로, 만약 이 오류율에 해당하는 사람들에 대해 추가적인 분석을 실시하여 공통적인 변수를 도출해내어 그것을 판매에 적용시킨다면, 추가적인 beer 구매자가 생길 수도 있을 것이다.두 번째로 지지도를10, 신뢰도를 50, 최대 전항값을 3으로 지정한 후 실행하면 우측 상단 모델에 모형이 생성되는 것을 알 수 있다. 아래 그림과 같이 정렬 기준(지지도, 신뢰도, 지지도*신뢰도, 후항값, 길이, 리프트)에 따라 자료를 볼 수 있고, 분석결과에 대한 요약된 것을 확인할 수 있다. 또한 오른쪽에 퍼센트 표시를 클릭하면 인스턴스, 지지도, 신뢰도, 리프트 의 값을 확인할 수 있다.
참고 자료
clementine v7.1
데이터마이닝 모델링과 사례