[데이터마이닝] [데이터마이닝]Measuring Distance / Clustering rule
- 최초 등록일
- 2004.12.22
- 최종 저작일
- 2004.10
- 23페이지/ 한컴오피스
- 가격 1,000원
소개글
..
목차
1. Introduction 1
2. What is Clustering Analysis 1
3. Measuring Distance 3
4. Conclusion 9
5. SAS in E-Miner : Clustering node 12
6. Reference 20
7. Attach printed output 21
본문내용
Introduction
군집화란 데이터들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업을 뜻한다. 작업의 특성이 분류작업과 흡사하다고 생각할 수 있으나, 분석하고자 하는 데이터에 부류가 포함되어 있지 않다는 점에서 차이가 있으며, 다른 데이터마이닝 작업을 위한 선행작업으로서의 역할을 수행하는 경우가 많다. 예를 들어, 어떤 백화점에서 고객을 효율적으로 관리하기 위해 고객들을 몇 개의 부류로 구분하려 한다고 가정해 보자. 이 백화점에서는 지금까지 고객의 최근 구매경력, 구매빈도, 구매액 등을 기준으로 고객을 VIP고객, 우수고객, 일반고객으로 분류하여 관리하였다. 그러나 이벤트나 프로모션 대상을 선정하는데 있어 현재의 고객부류는 너무나 추상적이고 고객의 개인별 특성을 전혀 고려하지 못하고 있어 활용도가 그다지 높지 않다. 고객의 구매이력 뿐만 아니라 인류통계학적 데이터, 라이프 스타일 데이터, 그리고 지불유형 등의 다양한 데이터에 군집화 기법을 이용하여 몇 개의 군집을 나눌 수 있다. 그 군집 중 다음과 같은 군집이 있다고 하자.
- 소득이 200만원 이상이고, 자녀가 없으며, 연령이 30대.
- 교육수준이 높으며, 자녀는 모두 출가했고, 연평균 구매액이 200~300만원 정도
이 같은 군집의 고객들의 특성을 파악할 수 있다면, 적어도 이 군집에 속한 고객들에게 어린이 의류나 장난감 카달로그를 발송하는 우는 피할 수 있고 할 수 있다.
따라서 이번 보고서에서는 데이터마이닝에서 반드시 알아야할 기법 중 한가지 형태인 군집분석이 무엇인가에 대하여 알아보고 실제 데이터를 가지고 군집분석에서 기본이 되는 거리를 구해 보도록 하겠다. 또한 참고사항으로 SAS in E-Miner에서 Clustering node에 대한 설명을 덧붙이도록 하겠다.
What is Clustering Analysis ?
탐색적 자료분석은 다변량자료에서 복잡한 관계를 이해하는데 매우 도움이 된다. 예를 들어 자료를 여러 형태로 플롯하여 다변량자료의 구조나 특성을 파악할 수 있다. 이 장에서는 단계별로 대상(변수, 항목)을 군집화 하는 방법을 설명하고자 한다. 자료에 있어 '자연스런 집락'을 찾는 일은 매우 중요한 탐색적 방법이다. 군집화 또는 집락화는 앞에서 논의된 분류와는 다른 방법이다. 분류의 경우에는 분류되는 집락의 수가 사전에 알려져 있고 새로운 관찰값을 이들 중 하나에 할당하는 것이 목적이지만 군집분석은 좀더 원시적인 측면이 있어서 집락의 수나 그 구조에 대해 아무런 가정을 하지 않는다. 군집화는 유사성(similarity) 또는 거리(distance or dissimilarity)를 근거로 이루어진다. 입력자료는 유사성측도 또는 유사성을 계산할 수 있는 자료면 된다. 자연스런 군집을 정의하는 일은 실질적으로 매우 어려운 일이며 '유사성' 또는 거리를 정의하는 방법에 따라 군집 결과가 달라 질 수 있다. 예를 들어 16장의 페이스 카드(face cards)를 유사한 군집으로 분류하는 방법에는 수트(suits)별로 묶으면 4개 군집이 되고, 검정과 붉<font color=aaaaff>..</font>
참고 자료
Clustering Analysis, 조성빈, 건국대학교, 2004. 10
데이터마이닝 : 방법론 및 활용, 강현철 외, 자유아카데미, 1999. 04
SAS Enterprise Miner 4.0을 이용한 데이터마이닝, 강현철 외, 자유아카데미, 2001
CRM을 위한 데이터마이닝, 알렉스 버슨 외 저, 홍성완 외 역, 대청, 2000
SAS라는 통계상자, 김충련, 데이터플러스, 2000
http://www.naver.com
http://www.empas.com
http://www.seri.org/forum/000147/