Boston Housing scheme Data Mining
- 최초 등록일
- 2010.05.06
- 최종 저작일
- 2010.05
- 30페이지/ MS 파워포인트
- 가격 3,000원
소개글
SAS 데이타마이닝 최종과제로 발표한 Boston Housing scheme Data Mining입니다.
교수님께서 좋은 피드백을 주셨고 저희또한 만족합니다. 유용하게 쓰세요.
목차
최종 다이어그램
데이터 마이닝이란?
데이터 마이닝의 도입배경
개 요
분석 데이터 자료
조사방법 및 자료설명
STEP 1. DATA PARITION
STEP 2 Filter Outliers
본문내용
Tool의 출현
시장 경쟁의 심화
시장상황의 빠른 변화
Large-scale Data Mining을
가능하게 하는 컴퓨팅 파워 증대
고객 접점에서의 고객 관리 필요
데이터 마이닝의 도입배경
미국 동부도시중의 하나인 보스톤 행정구역에 관한 부동산 자료를 이용하여 이용하여 적
절한 Data 가공작업 및 데이터 Mining기법에 근거한 부동산가격을 예측하는 예측모델링
을 통해 모델을 개발하고 개발된 결과를 도출함.
부동산 데이터의 14개의 변수 중에서 타겟변수를 MEDV 즉, 평균집값으로 정하였다.
이는 주어진 부동산 데이타에서의 목적이 보스턴 행정구역의 집 값과 다른 변수와의
관계를 알아보고자 하는 것이므로, 각각의 변수들이 집 값을 결정짓는데 얼마만큼의
영향을 미치는지를 알아보아야 할 것이다. 이 과정에서 실제 집값을 결정하는데 영향을
미치는 변수를 알아보고, 집 값에 영향을 미치지 않는 변수도 알 수 있을 것이다.
즉, 이 데이터를 이용하여 어떠한 변수들이 집값에 얼마만큼 영향을 미치는지 알아보기로
하고 분석에 들어간다
STEP 3 Variable Selection
Selection criterion: R-square
Squared correlation<0.005
Stepwise R2 improvement<0.0005
Use only grouped class variables
Reject variables with more than 50% missing values
- 집 값에 대한 영향력을 갖고 있는 변수를 찾기 위해 각 변수들과 집 값과의 R2값들을 이용하여 변수선택을 한 결과 비 소매사업의 비율(INDUS)을 제외한 모든 변수들이 영향력을 가지고 있으며 결과는 다음과 같다. 따라서 위에 그래프에서 INDUS 변수는 분석에서 제외된다.
STEP 3 Variable Selection
RM(방의 수), PTRATIO(학생 대 선생님 비율), PTRATIO(초,중등학교 교사비율) LSTAT(저소득층 비율) 가 목표변수에 대한 입력변수 중에서 설명력이 높음을 알 수 있다. 그 다음의 요인들은 위의 4개의 변수들에 비해 현저히 작거나 모두 비슷한 영향력을 보이는 것을 알 수 있다.
STEP 4 Regression
이 데이터에서 입력변수는 여러 개이므로 다중회귀분석을 하였다. 물론 회귀추정식이 비선형으로 나타나면 변환을 통해 선형으로
참고 자료
없음