R을 통한 통계분석(주성분분석)
- 최초 등록일
- 2011.06.23
- 최종 저작일
- 2011.05
- 27페이지/ 한컴오피스
- 가격 3,000원
소개글
R을 통한 다변량통계분석 연습문제
목차
없음
본문내용
(a) 한 주성분에 의해 가장 많이 설명되는 분산양은 얼마인가? 40%
prin_cor1 =princomp(bl, cor=TRUE)
summary(prin_cor1)
(b) 첫 번째 주성분과 두 번째 주성분을 구하고 의미를 설명하여라.
prin_cor1$loadings
y1=-0.424X1-0.446X2-0.563X3-0.454X4-0.303X5
y2=0.561X1+0.528X2-0.387X3-0.267X4-0.425X5
y1은 두변수의 가중평균이며 y2는 두변수의 차를 나타내는 성분이다.
(c) 첫 번째 주성분과 두 번째 주성분을 그래프에 그리고 설명하여라.
library(grapics)
biplot(prin_cor1)
x1, x2,는 두 번째 주성분에 영향을 많이 받고, x3, x4, x5는 첫 번재, 두 번째 주성분에 영향을 많이 받는다.
그 외의 성분은 적은 영향을 받으며, 데이터는 중심으로 조금 밀집되어 있다.
(d) 첫 번째와 두 번째 주성분에 의해 설명되는 분산의 비율은 얼마인가?
summary(prin_cor1)
0.4040779 + 0.2338224 = 0.6379003 > 63.79%
(e) 스크리 그래프를 그리고 적절한 주성분 개수를 제안하여라
screeplot(prin_cor1, ncps=2, type="lines", main="scree plot-correlation")
4주성분까지가 경사가 급하고 5주성분까지는 완만하므로 4개가 적당하다.
7.13 다음의 [표7.6]에 주어진 기상자료를 이용하여 주성분분석을 하고자 한다.
Y1 = 하루 중 최고 기온
Y2 = 하루 중 최저 기온
Y3 = 기온 곡선 면적
Y4 = 기온곡선 면적
Y5 = 하루 중 최고 지표 기온
Y6 = 하루 중 최저 지표 기온
Y7 = 지표 기온 곡선 면적
Y8 = 하루 중 최고 상대습도
Y9 = 하루 중 최저 상대습도
Y10 = 풍량
Y11 = 증발
temper<-read.csv("C:\data\data7.13.csv",header=T)
temper
attach(temper)
#(a) 표본공분산행렬 S를 사용하여 주성분을 구하여라
S<-cov(temper)
S
eigen(S)
#(b) 표본상관행렬 R을 사용하여 주성분을 구하여라.
R<-cor(temper)
R
eigen(R)
#(c) 한 주성분에 의해 가장 많이 설명되는 분산양은 얼마인가?
prin_t=princomp(temper ,cor=TRUE)
summary(prin_t)
가장 많이 설명되는 분산양은 54.9134%
참고 자료
없음