▣ 데이터마이닝의 개념Data Mining은 매우 큰 데이터베이스로부터 사전에 알려지지 않은, 유용한 정보를 추출하는 지식 발견 방법이다.? 정보를 찾아내는 방법은 어떤 특정 기법과 그 기술 자체만을 의미하는 것이 아니고, 비즈니스 문제를 이해하고 이러한 문제를 해결하기 위하여 정보기술을 적용하는 포괄적인 과정을 의미한다. 즉, 유용한 정보의 추출을 위한 방법론이라고 할 수 있다.따라서 Data Mining을 효율적으로 수행하기 위하여 시계열분석 등 각종 통계기법과 데이터베이스 기술 뿐만 아니라 산업공학, 신경망, 인공지능, 전문가시스템, 퍼지논리, 패턴인식, 기계적 학습(Machine Learning), 불확실성 추론(Reasonging with Incertainty), 정보검색에 이르기까지 각종 정보기술과 기법들을 사용하게 된다. 또한 경영전략, 마케팅 기법 등의 최신 경영기법 들의 이용도 필요하다. (※ 방법론이란 기법과 도구들의 모임이다.)이러한 Data Mining을 통하여 거대한 데이터베이스에 숨어있는 전략적인 정보를 발견할 수 있으며 이러한 정보는 주요 비즈니스 프로세스 개선의 가장 원초적인 단계에서 사용될 수 있다.? Data Mining은 흔히Knowledge Discoverty in Database(정보발견)라고도 불리 우며 그 외에 Knowledge Extraction(지식추출), Information Havesting(정보추수), Data Archeology(정보고고학), Data Pattern Processing(자료패턴처리) 등으로도 불리 운다.○ 세가지 관점으로 본 Data Mining의 정의? Computer Science 관점 : 패턴 인식 기술, 통계적, 수학적 분석방법을 이용하여, 저장된 거대한 자료로부터 우리에게 유익하고 흥미 있는 새로운 관계, 성향, 패턴 등 다양한 가치 있는 정보를 찾아내는 일련의 과정? MIS 관점: 거대한 데이터베이스 혹은 자료에서 유용한 정보를 유출하는 일련의 과정 뿐 아니라 값진 정보를 사용자가 전문적 지식 없이 사용할 수 있는 의사결정지원 시스템의 개발과정을 통틀어 Data Mining이라고 정의? Statistics 관점: 올바른 의사결정을 지원하기 위한 자료분석(Data Analysis) 및 모델선택(Model Selection)으로 정의? Data Mining을 한마디로 말한다면, 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정이라고 할 수 있다.예를 들면, "창문이 많은 집에는 도둑이 많다"라는 말은 당연한 말처럼 들릴 수도 있지만, 누구나 이러한 사실이 보험 요율에 적용될 수 있으리라고 생각하지는 않았을 것이다.실제로 영국의 한 보험회사는 이러한 사실을 이용하여 차별적인 보험 요율을 적용함으로써, 보다 효과적인 정책을 수립하게 되었고 이로 인해 기업의 수익증대에 커다란 공헌을 하게 되었다. 창문과 도둑의 관계를 찾아내는 것, 이것이 Data Mining이다.기업이 보유하고 있는 일일 거래 데이터, 고객 데이터, 상품 데이터 혹은 각종 마케팅 활동에 있어서의 고객 반응 데이터 등과 이외의 기타 외부 데이터를 포함하는 모든 사용 가능한 근원 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 등에 유용한 정보로 활용하고자 하는 것이 바로 Data Mining이다.Data Mining은 다양한 방법을 이용하여 근원 데이터를 탐색하고 분석하여 이로부터 기대하고 있는 정보뿐만 아니라, 예상하지 못했던 정보를 찾아내고자 하는 개념적인 방법론인 것이다.▣ 데이터마이닝의 등장배경? 데이터마이닝의 개념은 정보기술의 발달과 비즈니스적 요구에 의해 시장에 등장하게 되었다.먼저 정보시스템의 발전과정을 살펴보면 정보화의 초창기에 EDPS라는 개념이 한때 유행을 하다가 MIS의 개념으로 옮겨지게 되었다.경영층의 의사결정에 도움을 주는 고급정보를 가공하고 축적하는데 관심을 가졌던 의사결정지원시스템(DSS : Decision Support System)은, 정보화의 개념을 조직의 하부계층의 반복 업무를 지원하는 자동화 업무에서 전사적인 개념으로 확장 시키는 역할을 하였다.그런데 이를 구축하기 위하여 선결과제가 발견되었는데 바로 전사인 시스템을 통합 관리하는 통합데이타베이스의 구축이었다. 각 부서별로 독립적으로 운영되는 시스템으로는 경영층이의사결정을 내리는데 별로 도움이 되지 않았던 것이다.통합 데이터베이스 구축이 어느 정도 이루어졌을 때 발생한 또 다른 문제점은, 방대한 데이터와 정보들 가운데서 찾고자 하는 정보를 정확하고 빠르게 찾는다는 것이 아주 힘들다는 점이다.이러한 문제는 실제 비즈니스에서 더욱 개선의 필요성이 드러났고, 결국 이를 해결하고자 하는 노력으로 등장한 개념 중에 하나가 바로 데이터마이닝이다.즉, 고객, 상품, 경쟁사 관련 데이터 등 기업이 얻고자 하는 정보를 보다 손쉽게 접근할 수 있고 효과적으로 활용할 수 있도록 하는 도구가 필요하게 된 것이다.점점 심해지고 있는 기업 경쟁의 상황에서 더욱 다양해지고 개성화되고 있는 고객들의 필요를 만족시키기 위하여는 그런 요구에 대한 빠른 대응이 요구되었고 이것이 기업간의 경쟁력 척도가 되었다.또한 지속적으로 경쟁우위를 확보하기 위하여는 효과적이고 합리적인 신속한 의사결정이 더욱 중요하게 되었다. 따라서 기업들의 관심은 데이터를 잘 쌓아놓는 단계에서 벗어나 방대한 데이터의창고에서 보다 가치 있는 정보를 효과적으로 신속하게 찾아내고자 하는 방법으로 모아지고 있는것이다.○ 기술적 요인? 1980년대 거의 모든 조직이 고객과 경쟁자 및 제품에 관한 데이터를 담고 있는 데이터베이스를정보 인프라로 인식하고 구축하게 되었다. 이런 데이터베이스는 SQL이나 간단한 질의도구로는 찾아내기 어려운 정보를 포함하는 방대한 규모의 데이터베이스를 형성하게 되었다.? 네트워크의 사용이 지속적으로 증가함에 따라 다수의 데이터베이스에 접속하는 것이 훨씬 쉬워졌다. 따라서 고객정보 데이터를 인구통계학적이 데이터와 연결시켜 특정집단의 고객의 소비행위를 파악함으로써 이제까지 알 수 없었던 새로운 지식을 얻을 수 있게 되었다.? 과거 수년간에 걸쳐서 기계학습기법이 급속히 발전하였다. 신경 망 이론, 유전자 알고리즘 및 일반적인 학습기법 등의 발전으로 데이터베이스에서 지식을 발견하는 것이 용이해졌다.○ 기업환경적 요인? 기업데이터 자산의 급격한 증가로 인하여 의사결정자는 정보분석 환경에서 경쟁력을 높이기 어렵게 되었고, 이러한 대량의 데이터를 효과적으로 분석하여 정보화하려는 노력이 증가 하였다.? 데이터베이스 마케팅의 성공으로 고객을 세분화하고, 특정 고객 층을 표적으로 차별화 된 제품을 차별화 된 접근방법으로 제공하려는 시도가 데이터베이스 마케팅에서 지속적으로 이루어지고 있다▣ 데이터마이닝의 특징?대용량(massive)의 관측 가능한 자료(observational data)- 운영계에 축적된 과거자료로부터 비계획적으로 수집된 대용량의 데이터를 다룸?컴퓨터 중심적 기법(computer-intensive method)- 컴퓨터의 강력한 처리능력을 이용하여 실용화되고 있다. 사용자가 미리 가설을 세우지 않아도 컴퓨터 시스템이 가능한 가설을 스스로 생성하고 이를 검증?경험적 방법(adhockery method)에 근거 - 대다수의 Data Mining 기법들은 수학적으로 증명되고 발전된 것이 아니라 경험적으로 개발?일반화에 초점- Data Mining의 주요 관심은 통계적 추론과 검정보다는 예측모형의 일반화에 있음? 어떤 특정 문제에 한정된 솔루션이 아니라 숨겨진 정보를 찾아내는 하나의 개념적 방법론이며 기술적 조합