DATA MININGCONTENTS데이터 마이닝 개념 세가지 관점으로 본 데이터 마이닝의 정의 데이터 마이닝의 활용분야 데이터 마이닝의 적용기법 데이터 마이닝 경향1. 데이터 마이닝 개념정의: Data Mining은 매우 큰 데이터베이스로부터 사전에 알려지지 않은, 유용한 정보를 추출하는 지식 발견 방법 대용량의 데이터의 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 모형화함으로써 유용한 지식을 추출하는 일련의 과정들1. 데이터 마이닝 개념데이타마이닝의 5단계: 1.Sampling 단계 : 단순임의추출, 층화임의추출 2.Exploeration 단계 : 데이터 탐색을 통해 기본적인 정보검색, 유용한 정보추출 3. Modification 단계 : 모형성능향상을 위해 변수변환, 수량화,그룹화 방법을 통해 데이터 변형, 조정 4.Modeling 단계 : 분석목적에 따라 적절한 기법을 통해 예측모형을 찾는다. 5. Assessment 단계 : 신뢰성, 타당성, 유용성 평가2.세가지 관점으로 본 데이터 마이닝의 정의1.Computer Science 관점 : 패턴 인식 기술, 통계적, 수학적 분석방법을 이용, 저장된 거대한 자료로부터 우리에게 유익하고 흥미 있는 새로운 관계, 성향, 패턴 등 다양한 가치 있는 정보를 찾아내는 일련의 과정. 2.MIS 관점 : 거대한 데이터베이스 , 자료에서 유용한 정보를 유출하는 일련의 과정 뿐 아니라 값진 정보를 사용자가 전문적 지식 없이 사용할 수 있는 의사결정지원 시스템의 개발과정을 통틀어 Data Mining이라고 정의2.세가지 관점으로 본 데이터 마이닝의 정의3. 통계학 관점 : 올바른 의사결정을 지원하기 위한 자료분석(Data Analysis) 및 모델선택(Model Selection)으로 정의3. 데이터 마이닝의 활용분야▷ 데이터베이스 마케팅 ▷ 신용평가 ▷ 품질개선 ▷ 부정행위의 적발 ▷ 이미지분석3. 데이터 마이닝의 활용분야3. 데이터 마이닝의 활용분야4.데이터 마이닝의 적용기법1.연관규칙 (Association rules) 개념 연관성규칙을 발견하는 작업이란 데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업. 마케팅에서는 손님과 장바구니에 들어있는 품목간의 관계를 알아본다는 의미에서 장바구니 분석이라한다.4.데이터 마이닝의 적용기법2.연관규칙(Association rules) 의 측정기준 (1) 지지도(Support) - 전체 거래 중 항목 X와 항목 Y를 동시에 포함하는 거래가 어느 정도 인가를 나타내주며 전체적 구매도에 대한 경향을 파악할 수 있다4.데이터 마이닝의 적용기법2.연관규칙(Association rules)의 측정기준 (2) 신뢰도(Confidence) - 항목 X를 포함하는 거래 중에 서 항목 Y가 포함될 확률은 어느 정도인가를 나타내며 연관성의 정도를 파악할 수 있다.4.데이터 마이닝의 적용기법2.연관규칙(Association rules)의 측정기준 (3) 리프트(Lift / Improvement) - 항목 X를 구매한 경우 그 거래가 항목 Y를 포함하는 경우와 항목 Y가 임의로 구매되는 경우의 비를 나타내 준다.4.데이터 마이닝의 적용기법3. 순차 패턴 동시에 구매될 가능성이 큰 상품 군을 찾아내는 관성측정(Associations)에서 시간이라는 개념이 포함되어 순차적인 구매 가능성이 큰 상품 군을 찾아내는 것. 순차적 패턴발견에서의 연관 규칙 A→B 은 상품 A가 구매되면 일정시간의 경과한 다음에는 상품 B가 구매된다. 라고 해석4.데이터 마이닝의 적용기법4. 클러스터링 (Clustering) 어떤 목적변수(target)를 예측하기보다는 고객수, 고객연령과 같이 속성이 비슷한 고객들을 묶어서 몇 개의 의미 있는 군집으로 나누는 것. 대용량의 데이터가 너무 복잡할 때는 이를 구성하고 있는 몇 개의 군집을 나누어 살펴봄으로써 전체에 대한 윤곽을 잡을 수 있을 것이다. 군집분석은 주로 다른 분석을 위한 사전 단계로 쓰여질 때가 많다4.데이터 마이닝의 적용기법5.의사결정나무(Decision Trees) 의사결정나무(Decision Trees)는 분류 또는 예측을 목적으로 하는 어떤 경우에도 사용될 수 있는 기법으로 분석의 정확도보다는 분석과정의 설명이 필요한 경우에 더 유용하게 사용.4.데이터 마이닝의 적용기법5. 신경망 모형(Neural Networks) 주로 Supervised data에 적용되어 결과변수(target)에 대한 예측(Prediction)이나 분류(Classification)를 목적으로 감춰진 패턴을 찾고 이를 일반화하는데 이용 혹은 Unsupervised data에서 코흐넌 맵(Kohonen maps)을 이용하여 데이터의 클러스터링 작업을 수행하는데 쓰이기도 한다.4.데이터 마이닝의 적용기법6. 유전학적기법 구체적으로 가스 파이프라인의 최적화, 순회 판매원 문제, 로봇의 행동 진화, 신경망의 학습, 퍼지 멤버쉽 함수의 최적화 등에 적용할 수 있다 7.사례 기반 추론 기법(CBR) Case-Based Reasoning 주어진 새로운 문제를 과거의 유사한 사례를 바탕으로 주어진 문제의 상황에 맞게 응용하여 해결해 가는 기법4.데이터 마이닝의 적용기법5.데이터 마이닝 경향복합형 데이터를 다루는 방법 제약 기반 마이닝과 시각화 방법 데이터베이스 시스템, 데이터 웨어하우스 시스템, 웹 데이터베이스 시스템과 데이터 마이닝 통합 데이터 마이닝 언어의 표준화 사적인 데이터 보호와 보안의 새로운 응용분야와 새로운 방법 탐구를 포함{nameOfApplication=Show}
..PAGE:1데이터 마이닝 기법SAS Enterprise Miner 4.0..PAGE:2SAS 8.2 설치 방법클릭해서모두 다운로드- 예제자료 : BNKSERV (금융 서비스자료)분석목적 : 고객이 가입하고 있는 13가지 서비스들 사이의 연관성을 파악하여 고객이 필요로 하는 서비스를 추천 은행의 신용도/만족도를 높이고자 하는 목적..PAGE:3SAS 라이센스 갱신 방법1. 탐색기에서 다음 경로를 찾아 갑니다.(C:Program FilesSAS InstituteSASV8coresasinst )2. setinit.sss(갱신파일) 라는 파일을 복사함.3. 마우스 오른쪽 버튼을 클릭해서 Apply authorization code to SAS v8이라는 항목을 선택 실행..PAGE:4E-Miner의 시작E-miner의 시작..PAGE:5E-Miner의 시작화면ProjectDiagramProjectNavigatorProgressIndicatorDiagramWorkspaceToolsBarConnectionStatus IndicatorMessagePanel..PAGE:6시작화면 구성요소 설명Project Navigator프로젝트와 분석흐름도를 관리할 수 있다.Diagram Workspace분석흐름도를 생성, 편집, 수행시킬수 있다.Tools Bar자주 사용되는 노드들이 아이콘으로 등록되어 있다.Progress, Message, Connection Status프로젝트의 진행상태나 오류, 노드의 연결 상태 등을 나타내 준다...PAGE:71. 프로젝트의 등록1. 풀다운 메뉴에서파일 -> 새로만들기 -> 프로젝트..PAGE:81. 프로젝트의 등록2. Untitled를 클릭하고 이름을 바꿈..PAGE:92. SAS Library의 생성1. 탐색기에서 라이브러리를 더블 클릭2. 마우스 오른쪽 버튼 클릭 후 메뉴에서 새로 만들기 클릭3. 라이브러리 이름과 경로 지정4. 확인 버튼 클릭..PAGE:102. SAS Library의 생성..PAGE:112. SAS Library의 생성..PAGE:122. SAS Library의 생성..PAGE:133. 데이터 가져오기1. 파일 데이터 가져오기를 클릭2. 창이 뜨면 Next를 클릭3. browse를 클릭 하여 불러올 파일을 찾아서 클릭4. Library에서는 앞에서 생성했던 Library(ex:leewon)을 선택 하고 Member에는 임의의 이름을 입력5. finish 클릭..PAGE:143. 데이터 가져오기..PAGE:153. 데이터 가져오기..PAGE:163. 데이터 가져오기..PAGE:174. 분석 흐름도의 작성툴바를 클릭하면 아래의 그림이 나타나고 노드를 마우스로 드래그 하여 Diagram Workspace에 갖다 놓는다. 그리고 노드에서 마우스를 클릭 하고 드래그 하여 다른 노드와 연결한다.
DATA MINING- 1장 개론 -1. Introduction데이터 마이닝의 필요성과 중요성은 무엇인가? 데이터 마이닝이란 무엇인가? 어떤 종류의 데이터에 대한 마이닝인가? 데이터 마이닝의 기능 데이터 마이닝 시스템의 분류 데이터 마이닝의 주요 논제1.1 데이터 마이닝의 필요성과 중요성은 무엇인가?데이터베이스 기술은 원시적인 파일처리로부터 질의와 트랜잭션 처리를 하는 데이터베이스 관리 시스템의 개발로 진화하였다해결책 : Data warehousing and Data mining계속되는 발전 속에서 효율적, 효과적으로 데이터를 분석하고 이해하는 도구에 대한 요구가 증가되었다이러한 필요는 비즈니스와 경영, 정부행정, 과학과 공학 그리고 환경통제 등을 포함하는 수많은 응용분야들로부터 수집된 데이터의 폭발적 증가의 결과이다문제점 : 데이터의 양적 팽창과 유용한 지식의 부족데이터베이스 기술의 진화(1.1)1960s 데이터 수집, 데이터베이스 구축 1970s 관계 데이터베이스 시스템 1980s 확장 관계, 객체지향, 데이터들의 분산, 다양화 그리고 공유와 관련된 문제연구 1990s ~ 2000s 데이터 마이닝, 데이터 웨어하우스, 웹 데이터베이스1.2 데이터 마이닝이란 무엇인가?데이터 마이닝 : 데이터베이스, 데이터 웨어하우스 또는 다른 정보 저장소에 방대한 양의 데이터로부터 흥미로운 패턴을 발견하는 작업이다. 데이터 마이닝은 데이터베이스 시스템, 데이터 웨어하우징, 통계, 기계학습, 데이터 시각화, 정보 검색 그리고 고성능 컴퓨팅과 같은 영역에서 나온 학제간 분야이다. 그 밖의 관련 분야로는 신경망, 패턴인식, 공간 데이터 분석, 영상 데이터베이스, 신호처리 등이 있으며, 비즈니스, 경제학, 생명정보과학 등의 많은 응용분야들이 있다.KDD 프로세스(지식발견의 절차)(1.2)데이터 정제(잡음과 불일치 데이터의 제거) 데이터 통합(다수의 데이터 소스들의 결합) 데이터 선택(분석 작업과 관련된 데이터들이 데이터베이스로부터 검색된다) 데이터 변환(요약이나 집계 등과 같은 연산을 수행함으로써, 마이닝을 위해 적합한 데이터를 변환하거나 합병정리한다) 데이터 마이닝(데이터 패턴을 추출하기 위하여 지능적 방법들이 적용되는 필수적 과정) 패턴 평가(몇 가지 흥미 척도들을 기초로, 지식을 나타내는 진짜 흥미로운 패턴들을 구별한다) 지식 표현(사용자에게 채굴된 지식을 보여주기 위하여 시각호 지식 표현 기법들이 사용된다)KDD 프로세스(지식발견의 절차)(1.2)DatabasesData warehousePatternKnowledgeData IntegrationData CleaningData WarehouseTask-relevant DataData MiningPattern Evaluation데이터 마이닝 시스템의 구조(1.2)Data cleaning data integrationFilteringDatabasesDatabase or data warehouse serverData mining enginePattern evaluationGraphical user interfaceKnowledge-baseData Warehouse1.3 어떤 종류의 데이터에 대한 마이닝인가?관계 데이터베이스(DBMS) 데이터 웨어하우스 트랜잭션 데이터베이스 진보된 데이터베이스 시스템과 고급 데이터베이스 응용 객체지향 데이터베이스, 객체-관계 데이터베이스 공간 데이터베이스 시간 데이터베이스와 시계열 데이터베이스 텍스트 데이터베이스와 멀티미디어 데이터베이스 이질 데이터베이스와 레거시 데이터베이스 WWW1.4 데이터 마이닝의 기능데이터 마이닝의 기능은 데이터 마이닝 작업에서 발견되는 패턴의 종류에 대하여 설명하는데 이용된다. 일반적으로 데이터 마이닝 작업은 서술형 : 데이터베이스에 있는 데이터의 일반적 특성들을 설명한다 예측형 : 예측을 위하여 현재 데이터들에 대한 추론을 수행한다. 다양한 사용자들의 기대나 응용을 수용할 수 있도록 여러 종류의 패턴들을 마이닝할 수 있는 데이터 마이닝 시스템을 갖는 것이 중요하다.1.4 데이터 마이닝의 기능(1)개념 / 클래스 기술 : 특성화와 차별화 데이터 특성화:목표 클래스의 데이터들을 일반적인 용어들로 요약하기 데이터 차별화:목표 클래스를 하나 또는 한집합의 대조 클래스와 비교하기 연관성 분석(장바구니 분석) 데이터의 집합에서 함께 빈번하게 발생하는 속성-값 조건들을 나타내는 연관규칙을 발견하는 것. 다차원 연관 규칙, 단일 차원 연관 규칙1.4 데이터 마이닝의 기능(2)분류와 예측 분류는 데이터의 클래스나 개념을 설명하고, 구별하는 모델들의 집합을 찾는 과정이며, 그 모델을 이용하여 클래스의 레이블이 알려져 있지 않은 객체들의 클래스를 예측할 수 있도록 하는데 목적이 있다. 분류규칙, 의사결정 트리, 수학적공식, 신경망등으로 표현 군집분석 이미 알려진 클레스 레이블을 참고하지 않고 데이터 객체들을 분석한다 “클래스내 유사성의 극대화, 클래스간 유사성의 최소화” 원칙1.4 데이터 마이닝의 기능(3)이상치 분석 이상치 : 데이터베이스에 데이터의 일반적 형태나 모델을 따르지 않는 데이터 객체들. 이상치를 잡음이나 예외로 취급하여 폐기한다. 그러나 사기탐지와 같은 곳에서는 이를 분석한다. 전개분석 행위가 신간에 따라서 변화하는 객체들에 대한 규칙성이나 경향을 묘사하고 모델링하는 분석 방법.1.5 모든 패턴이 다 흥미로운가?무엇이 패턴을 흥미롭게 만드는가? 패턴이 인간에게 쉽게 이해도고 어느 정도의 확실성을 가진 새로운 데이터나 시험 데이터에 대하여 타당하며 잠재적으로 유용하고, 새롭다면, 흥미롭다 객관적 척도와 주관적 척도의 조화로 흥미로운 패턴을 찾아 낸다. 객관적 척도 : 발견된 패턴들의 구조와 그 사이에 존재하는 통계에 기초한다 주관적 척도 : 데이터에 대한 사용자의 확신을 기초로 한다1.5 모든 패턴이 다 흥미로운가(2)?데이터 마이닝 시스템은 흥미로운 패턴들을 모두 발생시킬 수 있는가? 데이터 마이닝 알고리즘의 완전성과 관련. 사용자가 제공하는 제약조건과 흥미척도를 사용하여 탐색에 초점을 맞춰야 한다. 데이터 마이닝 시스템은 오직 흥미로운 패턴들만 발생시킬 수 있는가? 데이터 마이닝의 최적화 문제.1.6다양한 학문들의 합류로서의 데이터 마이닝Data MiningDatabase TechnologyStatisticsOther DisciplinesInformation ScienceMachine LearningVisualization1.6 데이터 마이닝 시스템의 분류마이닝되는 데이터베이스 종류에 따른 분류 관계, 트랜잭션, 객체지향, 객체-관계, 데이터 웨어하우스 마이닝 시스템, 공간, 시계열, 텍스트, 멀티미디어 시스템, WWW 마이닝 시스템 등. 마이닝되는 지식의 종류에 따른 분류 특성화, 차별화, 연관성, 분류, 군집, 이상치 분석, 전개 분석 등. 이용되는 기법의 종류에 따른 분류 데이터 웨어하우스(OLAP), 기계학습, 통계, 시각화, 패턴인식, 신경망 등등 적용된 응용분야에 따른 분류 재정, 원격통신, DNA, 주식시장, 전자메일 등1.7 데이터 마이닝의 주요 논제(1)마이닝 방법론 및 사용자 상호작용의 논제 데이터베이스에 있는 다양한 종류의 지식 마이닝 여러 추상화 단계에서의 대화형 지식 마이닝 배경지식의 활용 데이터 마이닝 질의어와 임의적 데이터 마이닝 잡음이나 불완전 데이터 다루기 패턴 평가 및 흥미도 문제 성능과 관련된 논제 데이터 마이닝 알고리즘의 효율성과 확장성 병렬, 분산, 점증적 마이닝 알고리즘1.7 데이터 마이닝의 주요 논제(2)데이터베이스 타입의 다양성과 관련된 논제 릴레이션 및 복합 데이터 타입의 취급 이질 데이터베이스와 세계적 정보 시스템으로부터의 정보 마이닝 적용과 사회적 충격과 관계가 있는 논제 발견되었던 지식의 적용 기존 지식과 더불어 발견되었던 지식의 통합 : 지식융합 문제 데이터 보호, 프라이버시의 보호{nameOfApplication=Show}
< 클러스터링 >>1. 예제 자료와 분석의 목적▶ 분석의 목적한 의류제조업자가 전국의 689개 지점에 물품납부 계획을 세우려고 한다. 과거의 각 지점별 4 종류(Original, Fashion, Leisure, and Stretch)의 청바지의 매출액을 기준으로 전체 지점을 몇 개의 그룹으로 구분하고, 정해진 각 그룹에 대해 이후로 동일한 비율로 4종류의 청바지를 납품하고 나아가 그룹별 차별화된 마케팅의 적용 등을 계획하고 있다.▶ 자료 세트 : DONGAREE = 689개 지점의 매출 현황을 조사한 자료.변수이름변수의 내용STOREID각 지점의 고유번호FASHIONFASHION타입의 청바지의 매출현황LEISURELEISURE 타입의 청바지의 매출현황STRETCHSTRETCH 타입의 청바지의 매출현황ORIGINALORIGINAL타입의 청바지의 매출현황▶ 새로운 프로젝트와 분석 흐름도를 생성. (STOREID를 id변수로 설정)2. 군집분석을 위한 자료의 변환▶ 군집화를 위한 새로운 변수의 생성매출액 자료는 제품별 매출의 상대 비율을 통해서 구분하는 것이 의미가 있다. 따라서 변환 노드 (Transform Variable Node)를 통해 자료에 사용될 새로운 변수를 생성 한다.※ 분석에 사용될 각 제품 매출액의 상대비율과 총 매출액을 다음과 같이 정의.? FA_RATIO=LOG(FASHION/ORIGINAL)? LE_RATIO=LOG(LEISURE/ORIGINAL)? ST_RATIO=LOG(STRETCH/ORIGINAL)? SALESTOT=FASHION+LEISURE+STRETCH+ORIGINAL? Name: 원 변수 또는 변환된 변수명? Keep: 이후 노드에 분석할 대상으로 사용할지 여부를 결정(Yes, No)? Mean: 해당 변수의 평균? Std Dev: 해당 변수의 표준편차? Skew: 해당 변수에 대한 분포의 치우침 정도? C.V.: 변동계수, (Std Dev)/Mean? Formula: 변수변환을 위한 연산식? Format: 변수의 입력형태? Label: 변수의 라벨3. 사전 군집수의 결정▶ 타당한 군집의 수를 먼저 결정하기 위하여 Insight 노드의 3차원 그래픽 툴을 이용.- 위 그림을 보면 SALESTOT이 z축인 plot은 3개의 군집으로 잘 분리되어 있음을 볼 수가 있다.- 4개 이상의 변수가 고려되는 군집의 구분은 주성분분석과 같은 다변량 분석을 이용해 다수의 변 수를 잘 표현할 수 있는 소수의 변수를 새로이 정의해 이를 이용할 수가 있다.처음 두 개의 주성분 : 73.98%처음 세 개의 주성분 : 93.55%원자료의 정보를 가진다고 나타남▶ 4차원의 변수를 하나의 3차원 Plot으로 나타내기.4. K-평균 군집분석(K-means Clustering)※ SAS E-Miner에서 사용하는 군집분석 : k-means 방법▶ 각 지점을 3개의 군집에 할당※ 분석에 사용될 변수 중에서 SALESTOT 변수는 다른 변수들과는 척도가 다르므로 분석에 이용할 네 개의 변수를 표준화하여 이를 분석에 사용.( SALESTOT 변수를 그대로 분석에 이용하면 SALESTOT 변수의 중요도에 영향을 미칠 수도 있기 때문.)군집의 개수를3개로 지정군집 분석 결과 생성되는 변수 이며 각 관찰치의 소속 군집을 나타내는 변수 이름.▶ Clustering 노드의 다양한 결과보기정규화평균:0.84변수 : LE_RATIO- Partition 탭 : 군집의 특성을 파이도표를 통해 시각화하여 보여줌.- 폭 : 표준편차- 높이 : 관측치의 개수- 색 : 군집에 속한 관측치와 중심사이의 거리▶ Summary statistics군집 2의 ST_RATIO Mean = -1.4군집 3의 ST_RATIO Mean = -4.4으로 차이가 크게 나타남관찰갯수가 632개로 군집 2에대다수의 관찰 개체들이 모여 있음▶ Cluster profile : 선택된 군집의 의사결정 나무를 출력.? 목적변수 - 각 관찰치의 소속군집을 나타내는 변수 _SEGMENT_이다.? 입력 변수 - 분석에 사용된 데이터 세트에 포함된 모든 변수.=> 군집 2에 대한 의사결정 나무로서 군집을 결정하는데 가장 유의한 변수는 SALESTOT▶ View data : 선택된 군집의 데이터를 보여줌.▶ Profile 탭 : Y-Axis에서 변수를 선택하면 여러가지 변수가 각 군집에 어떻게 할당 되었는가를 살펴볼 수 있다.▶ Statistics 탭 : 군집에 대한 통계량을 테이블의 형태로 보여줌 .=> 분석에 사용된 변수들에 대한 통계량을 3차원 PLOT으로 나타냄5. 군집결과의 시각적인 해석▶ 또 다른 Insight노드를 통해 관측치들이 실제로 어떻게 각 군집에 할당되었는지 확인.- 새로운 Insight 노드를 추가하여 분석 흐름도를 작성
< 의사 결정 나무 >>1. 예제 자료와 분석의 목적▶ 분석의 목적- 한 은행의 신용평가 부서에서는 대출 승인에 대한 의사결정과정을 자동화 하기 위해서 각 고 객에 대한 신용평가점수 모형을 만들고자 한다.▶ 분석 자료 : HMEQ 데이터세트 : 대출 신청자의 20%가 신청서에 수입대비 부채 비율을 기입하지 않았다.▶ 데이터 탐색 : 각 변수에 대해 기본적인 정보를 파악한다.수입에 대한 부채 비율 이 56% 미만▶ Data Partition 노드의 설정- Train, Validation, Test 데이터세트의 비율을 각각 67, 33, 0으로 지정(모형화와 타당성 평가를 위해서 HMEQ 데이터세트를 분석용과 평가용 데이터세트로 분할)3. 모형의 평가와 결과보기▶ 모형의 평가- 이제 3가지 모형을 디폴트 설정에 의해서 수행하고 그 결과를 비교.=> 이익도표는 의사결정나무가 신경망모형이나 회귀모형에 비해서 다소 좋은 예측력을 가진다는 것을 보여주고 있다. 즉 의사결정나무에 의한 상위 10%에는 약 80%의 부실 대출자가 포함 되어 있는 반면에, 회귀모형에 의한 상위 10%에는 약 66%만이 포함.- 의사결정나무에 의해서 부실 점수가 높은 상위 30%의 대출신청자에게 대출을 거절하면 약 80%의 부실 대출을 방지할 수 있다. 그러나 신경망모형이나 회귀모형을 이용하여 80% 정도의 부실 대출을 방지하기 위해서는 대출신청자의 거의 50%에 대해서 대출을 거절해야 함.※ 의사결정나무가 로지스틱회귀모형에 비해서 훨씬 좋은 예측력을 보여주고 이유- 입력 변수들과 목표 변수 간의 비선형성을 모형에 포함하고 있기 때문에...▶ 의사결정나무의 결과보기평가용 데이터세트에 대해서 약 89%의 정확도(accuracy)를 가지고 있다는 것을 볼 수 있음.▶ 각 마디의 통계량- 3번 노드의 약 64%는 부실대출자로 나타나 있다. 수입대비 부채 비율이 높거나 대출 신청서 에 이 항목을 기입하지 않은 고객은 부실대출에 대한 위험 확률이 높다고 할 수 있다.▶ 각 노드에 대한 자세한 설명을 보는 방법- Node 3은 DEBTINC로 분할 되었고 변수의 범위는 45.1848보다 큰 값이며결측치를 포함한다라고 해석됨4. 의사결정나무의 수정▶ 다지분리(MultiwaySplit)- 정의 : 하나의 부모마디에서 두개 이상의 자식마디가 형성될 수 있도록 함.- 목적 : 해석상의 편리성 추구를 위해서....- 새로운 분석흐름도 작성 (새 Tree노드 하나를 추가)?Chi-Square Test : 부모마디로부터 자식마디로 분리하기 위해 Pearson의 카이제곱 통계량을 분 리기준으로 설정.?Entropy Reduction: 각 마디에서의불순도(impurity)를 재는 측도인엔트로피 지수(entropy index)를 분리기준으로 설정.?Gini Reduction: 각 마디에서의 불순도를 재는 측도인지니 지수(gini index)를 분리기준으로 설 정.?Minimum number of observation in a leaf : 끝마디에 포함될 관측개체의 최소 개수를 의미?Observation required for a split search;임의의 분리기준에 의해 부모마디가 자식마디로 분리 되기 위해 요구되는 관측 개체의 수?Maximum number of branches from a node: 자식마디가 형성될 때 고려될 최대의 분리 개수.?Maximum depth of tree: 끝마디 깊이의 최대값.?Splitting rules saved in each node: 각 마디에서 분리기준이 큰 순서대로 몇 개까지의 분리규칙을 저장할 것인지를 지정?Surrogate rules saved in each node:일치도(agreement)가 큰 변수에 의해서 결측값을 대체하는데, 이때, 최대 몇 개의대체규칙(surrogate rule)을 저장하여 둘 것인지를 지정하는 옵션.※ 결과를 살펴보면 앞의 나무구조에 비해서 보다 세밀하게 분리되어 있는 의사결정나무를 볼 수 있을 것이다. 연구자는 나무구조를 자세히 비교하고 분석목적과 해석의 편리함 등을 고려하여 적절한 의사결정나무를 선택해야 한다.▶ 정지규칙의 설정 - 사전 가지치기개체수가 100보다 적은 마디는 더 이상 분리가 일어나지 않도록 함- 너무 적은 개체수를 가지고 있어서 의사결정에 사용하기 곤란한 마디를 더 이상 분리가 일어 나 지 않도록 하는 것