다중선형회귀분석
- 최초 등록일
- 2012.06.21
- 최종 저작일
- 2012.03
- 15페이지/ 한컴오피스
- 가격 4,000원
소개글
데이터마이닝 강의시간에 과제로 내주신 엑셀마이너 실습입니다.
목차
3.2 아침식사용 시리얼 사례
5.2 소프트웨어 재 판매이익의 예측
5.3 새로운 노선의 항공요금에 대한 예측
본문내용
3.2 아침식사용 시리얼 사례
a) ① 정량적 / 수치형 변수 : calories, protein, fat, sodium, fiber, carbo, sugars, potass, vitamins, shelf, weight, cups, rating
② 명목형 변수 : name, mfr, type,
b) 가. 변수의 변동성을 보기위해 각 정량적 변수의 표준편차를 살펴보았을 때 sodium 변수가 82.77로 가장 컸다. 히스토그램을 살펴보아도 굉장히 넓은 분포임을 알 수 있다.
나. 변수의 치우친 정도를 보기위해 각 정량적 변수의 왜도를 살펴보았다. fat, fiber, potass, vitamins, rating 변수가 다른 변수들에 비해 상대적으로 높은 왜도 수치(절대 값)가 나왔다. 히스토그램을 살펴보면 각 변수의 치우친 정도를 쉽게 파악할 수 있다. 가장 많이 치우친 것은 fiber 변수이다.
다. 극단치를 살펴보기 위해 히스토그램을 보면 protein, fat, fiber, vitamins 변수에서 홀로 동떨어진 데이터들이 있는 것을 발견할 수 있다. 즉, 극단치가 존재한다고 볼 수 있다.
d)
저온용 시리얼과 고온용 시리얼에 대한 상자그림이다. 일단 고온용 시리얼에 대한 자료가 턱없이 부족하다는 것을 알 수 있다. 또 저온용 시리얼에는 이상치 자료가 하나 존재하고, 평균이 중앙값보다 큰 것을 보아 분포가 데이터가 큰 쪽으로 살짝 치우친 것을 알 수 있다.
e)
옆의 상자그림은 선반 1, 2, 3에 대한 고객등급을 상자그림으로 표현한 것이다. 선반 1과 3이 고객 등급이 좋은 편인 것에 반해 선반 2는 상대적으로 고객 등급이 낮은 것을 알 수 있다. 이로 인해 선반 2에 놓인 시리얼의 조치가 필요하다.
상관관계 테이블을 분석함으로써 가장 선형 관계가 강하게 나온 몇 개의 변수를 골라서 Matrix Plot을 그렸다. 처음엔 13개 변수를 다 넣으려고 하다가 최대 5개까지만 넣을 수 있다고 하여 상관관계 테이블에서 변수를 몇 개 골랐다.
가. fiber와 potass 변수 사이에서 가장 강한 상관관계가 나타났다. 상관계수가 0.912로써 강한 양의 상관관계를 가지고 있다.
참고 자료
없음