- 목 차 -Ⅰ. INTRODUCTION -------------------------1(1) 들어가며 ------------------------------- 1(2) 다중선형회귀분석의 개요 ------------------- 1(3) 분석자료 ------------------------------- 1Ⅱ. 다중선형회귀모형의 적합 -------------------3Ⅲ. 다중선형회귀모형 회귀진단 -----------------5(1) 잔차 분석 ------------------------------ 5(2) 각 관찰값의 잔차 검정 -------------------- 8(3) 특정 관찰치의 영향 관측값 ----------------- 8(4) 각 변수의 선형성 검정 -------------------- 9(5) 각 모수 추정치의 중요도 ----------------- 10(6) 다중공선성의 검정 ---------------------- 10(7) 예측변수의 선별절차 --------------------- 11Ⅳ. 다중선형회귀모형의 신뢰구간 ---------------12Ⅴ. 부분 F 검정 ----------------------------13(1)vs.------------------- 13(2)vs.------------------- 13Ⅵ. CONCLUSION --------------------------14** REFERENCES --------------------------14Ⅰ. INTRODUCTION(1) 들어가며이번 두 번째 데이터 분석을 시작하면서 사용한 통계 패키지는 SAS로, 주로 PROC REG와 PLOT을 주로 사용하여 결론 도출을 위한 분석 자료로 삼았다. 주어진 문제에 대한 모형은 다중회귀모형(Multiple Linear Regression Model)일 것이라고 가정한 후 분석을 시작하였다. 우선 다중선형회귀분석의 개요를 짤막하게 정리한 뒤 본 분석으로 들어가도록 할 것이다.(2) 다중선형회귀분석의 개요다중회귀분석은 하나의 종속변수와 2개 이상의 독립변수들 간의 관련성을 규명할 수 있는 수학적 모형을 측정된 변수들의 자료로부터 추정하는 통계적 방법이다. 이 추정된 모형을 사용하여 예측을 하거나 관심 있는 통계적 추론 등을 하게 된다.① 다중선형회귀모형 : 독립변수인 벡터의 고정값에서 관측된 종속변수의 값사이에는 다음과 같은 방정식을 만족한다.,② 가정ⅰ)들은 서로 독립이다 (독립성)ⅱ)들은 각각 평균이 0, 분산이인 정규분포을 따른다. (등분산성, 정규성)(3) 분석자료① 문제 : 목재 건축물에 사용되는 어떤 천연 접착제의 강도()는 그 제품에 포함된 특정 성분의 수분투과율()과 파손확산율()에 의존한다고 한다. 주어지 세 변수의 데이터를 기본으로 이제부터 분석을 시작하겠다.② 데이터표1. 자료 TABLE③ 산점도(scatter diagram)그림1. 입체 산점도Ⅱ. 다중선형회귀모형의 적합① 모형의 모수 추정치에 대한 귀무가설은,이며 이에 대한 결과를 분석하기 위해값을 보면,값이 33.45(P |t|Intercept Intercept 1 1.67169 0.73939 2.26 0.0583x1 수분투과율 1 0.26882 0.07747 3.47 0.0104x2 파손확산율 1 0.24398 0.05689 4.29 0.0036표2. SAS 결과Ⅲ. 다중선형회귀모형 회귀진단회귀진단(Regression diagnostics)은 넓은 의미와 좁은 의미로 해석할 수 있는데, 넓은 의미의 회귀진단은 적합된 회귀 모형의 전반적인 검토, 즉 1. 선형성(linearity), 2. 오차항의 분포 3. 다중공선성 4. 영향력 관측치 탐색을 의미하며, 모형검토(model checking)라고도 한다. 좁은 의미에서는 영향력 관측치 탐색만을 말하기도 한다. 여기서는 넓은 의미의 회귀 진단을 사용하여 적합된 회귀 모형의 전반적인 검토를 해보겠다.(1) 잔차 분석설정한 모형의 가정이 적절한지 여부를 알아보기 위해서는 잔차항들이 서로 독립적이며 정규분포를 한다는 것을 보여야한다. 여기서는 잔차를 검정하는 방법으로 더빈-왓슨(Durbin-Watson) 통계량과 PROC UNIVARIATE를 이용하는 연검정(run test) 그리고 샤피로-윌크(Shapiro-Wilks) 검정을 실시하도록 하겠다.① 잔차에 대한 더빈-왓슨값Durbin-Watson D 1.146Number of Observations 101st Order Autocorrelation 0.246표3. SAS 더빈-왓슨값더빈-왓슨 검정통계량는이며, 더빈-왓슨값이 2인경우에 잔차에 대한 상관관계가 없음을 알 수 있으며, 0에 가까울 수록 양의 상관관계, 4에 가까울수록 음의 상관관계를 갖는다. 결과에서는 DW값이 1.146이므로 비교적 상관관계가 없다고 할 수 있다.에서는 1차 자기상관계수값으로 이번 분석 결과에서는 0.246으로 비교적 낮은 값이 나와 본 모형은 적절하다고 볼 수 있다.② 잔차에 대한 산점도다음 장에서 주어진 세 개의 잔차 산점도 Predicted value*residual, x1*residual, x2*residual을 보면, 데이터의 개수가 많지는 않으나 비교적 고르게 분포하고 있는 것을 알 수 있다. 즉 여기에서 나타난 각 설명변수들에 대한 잔차들의 분포는 0을 중심으로 랜덤하게 분포되어 있다고 할 수 있으며, 따라서 가정을 만족한다고 볼 수 있다.③ 잔차에 대한 정규성 검정UNIVARIATE 프로시저변수: resid (Residual)위치모수 검정: Mu0=0검정 --통계량--- -------p-값-------스튜던트의 t t 0 Pr > |t| 1.0000부호 M 0 Pr >= |M| 1.0000부호 순위 S 0.5 Pr >= |S| 1.0000정규성 검정검정 ----통계량---- -------p-값-------Shapiro-Wilk W 0.942633 Pr < W 0.5827Kolmogorov-Smirnov D 0.153158 Pr > D >0.1500Cramer-von Mises W-Sq 0.044656 Pr > W-Sq >0.2500Anderson-Darling A-Sq 0.281496 Pr > A-Sq >0.2500표3. 잔차분석 결과표3에서 보면, 연검정값 0.5와 샤피로-윌크의 W값이 0.943(P