주성분분석
- 최초 등록일
- 2009.11.17
- 최종 저작일
- 2009.11
- 36페이지/ 한컴오피스
- 가격 2,000원
소개글
주성분분석(principal component analysis)이란 해석하고자 하는 다차원의 데이터를 거기에 포함된 정보의 손실을 가능한 한 적게 해서 2 혹은 3차원의 데이터로 축약하는 수법이다. 주성분분석을 활용하면 관측대상이 어떠한 위치에 있는지 시각적으로 파악할 수 있게 된다.
목차
1. 주성분분석의 기초지식
1) 주성분분석의 개요
2) 고유치와 고유벡터
2. 주성분분석의 시각적 표현
3. 분산공분산행렬에 의한 주성분분석
4. 주성분점수
1) 주성분점수를 구하는 방법
2) 주성분점수에 의한 순위 매김
5. 상관행렬에 의한 주성분분석
1) 상관행렬에 의한 주성분분석의 절차
2) 상관행렬에 의한 주성분점수를 구하는 방법
6. 중회귀분석과 주성분분석의 차이
7. 주성분의 회전
8. 주성분분석의 실제
1) 종합지표의 작성
본문내용
주성분분석의 효용
새로운 변수 이 구해지면 개의 변수를 개로 집약할 수 있게 된다. 이러한 사실은 어떠한 장점을 가져오는 것일까?
이제 6개의 변수로 이루어지는 다변량 데이터가 있다고 하자. 이들 변수의 관계를 파악하기 위해서 산점도를 이용하기로 하면, 두 변수마다 15매의 산점도를 관찰하지 않으면 안 되게 된다. 주성분분석에 의해서, 예를 들면 이 데이터를 2개의 새로운 변수로 집약할 수 있다고 하면 6변수의 정보를 1매의 산점도에 표현할 수 있어 정보의 이해가 훨씬 용이해진다. 또 이 산점도상에서 관측대상을 몇 개의 그룹으로 나눌 수 있다고 하는 효용가치가 있다.
데이터의 표준화
다변량 데이터는 각 변수가 같은 단위로 측정되어 있는 경우와 변수의 단위가 다른 경우가 있다. 변수의 단위가 다르다고 하는 것은, 신장이라고 하는 변수는 cm의 단위로 측정되고 체중이라고 하는 변수는 kg의 단위로 측정되어 있는 경우 등을 말한다.
이와 같은 경우에는 변수마다 데이터를 표준화하고 나서 주성분분석을 적용하는 것이 좋다. 왜냐하면 주성분분석은 측정단위를 어떻게 취하느냐에 따라서 영향을 받기 때문이다. 물건의 길이를 나타내는 변수이더라도 cm의 단위로 기술된 데이터와 m의 단위로 기술된 데이터에서는 주성분분석의 결과가 달라지므로, 데이터는 표준화해 놓은 편이 무난하다. 데이터의 표준화란,
“각 데이터로부터 평균을 빼고 표준편차로 나눈다.”
는 것으로 표준화된 데이터는 평균 0, 표준편차 1이 된다. 변수마다 데이터를 표준화함으로써 변수간 단위의 상위를 소거할 수 있다.
참고 자료
다변량분석