1. 서론08년 베이징 올림픽 참가국 전체에 대하여 국가별 총 메달수를 반응변수로, 인구, GDP, GNI, 국토면적, 초등학교 진학률, 평균수명, External debt, 지역(나라의 위치) 총 8개의 설명변수로 통계패키지 SAS를 사용하여 회귀분석을 실시하였다.여기서 국가 규모 변수를 인구, 국토인구, 지역으로 잡았으며, 경제 지표 변수를 GDP, GNI, External debt로, 기타 지표를 초등학교 진학률, 평균수명으로 설정하였다.베이징 국가별 총 메달수는 베이징 올림픽 공식 홈페이지(http://en.beijing2008.cn/en_index.shtml/)를 참조하였으며,인구와 GDP, GNI는 Worldbank의 07년 말 data를 참조하였고, 국토면적과 초등학교 진학률, 평균수명, External debt는 Worldbank의 06년 data를 참조하였다.※ 선형회귀분석의 전제조건① 선형성 : 독립변수와 종속변수의 관계는 선형관계식으로 표현할 수 있다.② 정규성 : 오차항들은 정규분포를 따른다.③ 등분산성 : 오차항들의 분산은 모든값에 대하여 동일하다. 즉,④ 독립성 : 오차항들은 서로 독립이다. 즉,2. 각 변수들의 기초 통계량3. 각 변수들 간의 피어슨 상관계수- 산포도4. 국가규모(인구, 국토면적) 변수와 경제지표(GDP, GNI, External debt) 변수 선택- 단계적 선택법(Stepwise selection)사용 : 모형에 설명변수를 하나씩 추가하면서, 남아 있는 설명 변수들로 인해 중요도가 낮아지는 설명 변수를 제거하는 방법을 반복 실행하여 추가되거나 제거되는 변수가 없을 때 까지 수행하는 방법분석 : 단계적 변수 선택법(Stepwise Selection)을 통해와,의 변수가 선택되었다.㉮모형분석 : 국가 규모 변수와 경제 지표 변수들로 베이징 올림픽 메달 수에 대한 회귀모형식을 만든 결과, 모델의 적합성을 나타내는 ANOVA Table의 p-value가 0.0001보다 작으므로 이 모형은 유의하며, 모든 설명변수들의 p- 검정을 할 수 있다. p-value 값이 0.0001보다 작으므로 귀무가설(오차들은 정규분포를 따른다.)를 기각한다. 따라서 정규분포를 따른다고 할 수 없다. 오차들이 정규분포를 따른다고 할 수 없을 경우, 종속 변수의 Y절편에 영향을 미친다.⑶ 등분산성 진단 - 잔차 도표 이용- Residual Analysis 실시참고 :where,diagonal element of,, DFITs =① Leverage- leverage란 실험 전에 동떨어짐을 탐지하는 것으로, 관측값들의 무리들 중에서 어떤 점이 그 무리들 중에 얼마나 떨어져 있는지를 보는 것이다. 즉, 잔차 측면에서는 outlier가 아니지만, 관측치들의 측면에서 볼 때, outlier이다. ‘where설명변수의 개수, n= 관측값’ 으로 계산하며, 이 값을 넘는 점들을 leverage point라고 말한다. leverage point는 회귀모형에서 회귀계수 추정 시 중요한 역할을 하며, 이 값들을 제외할 경우, 회귀 계수 추정이 불안정해질 수 있는 가능성이 존재하므로 아주 중요하다.분석 : 여기서는 11번째(Australia), 27번째(Brazil), 33번째(Canada), 39번째(China), 69번째(Germany), 83번째(India), 91번째(Japan), 152번째(Russian Federation), 194번째(United States) 관측치들이 leverage point일 가능성이 존재한다. 이 값들을 회귀모형 추정에서 제외했을 경우, 회귀계수 추정이 불안정해질 수 있는 가능성이 존재한다.② Cook's Distance- Cook's distance 는 influential point를 찾는 방법이며, point가 특정한 값을 벗어나 있을 경우, 주어진 관측값을 제외했을 때의 효과를 측정하는데 사용된다. influential point를 제외했을 경우 회귀직선의 기울기 변화에 큰 영향을 미친다. 따라서 influential point를 제외했을 경우 회귀계수의 추정이 leverag 살펴볼 수 있다. outlier란 자료 중에 전체 형태에서 동떨어져서 큰 잔차를 갖는 관측값들을 말한다. 이 표준화된 잔차 plot 에서는 -2에서 2 사이에 있는 값들은 문제가 없다고 설명할 수 있고, 범위 밖에 있는 점들에 대해서는 outlier 라고 말할 수 있다.분석 : 이 모형에서는 11번째(Australia), 18번째(Belarus), 27번째(Brazil), 33번째(Canada), 39번째(China), 65번째(France), 69번째(Germany), 83번째(India), 97번째(Korea, Rep.), 152번째(Russian Federation), 191번째(Ukraine), 193번째(United Kingdom), 194번째(United States) 관측치가 outlier일 가능성이 존재한다.잔차 분석 종합 : leverage point와 influential point 들을 outlier들에서 제외했을 때, 18번째(Belarus), 97번째(Korea, Rep.), 191번째(Ukraine) 관측치들이 outlier라고 할 수 있다.* outlier에 대한 해결책으로는 자료 검토 후, 오류가 있으면 수정하거나 수정이 불가능한 경우 제외하면 된다. 또는 변수 변환으로 해결한다.⑤plot분석 : reg=1은 ‘Africa’이고, reg=2는 ‘Central Asia‘이고, reg=3은 'South Asia'이고, reg=4는 ’East Asia‘이고, reg=5는 ’Middle East'이고, reg=6는 ‘Southeast Asia'이고, reg=7은 ’West Europe'이고, reg=8은 ‘East Europe'이고, reg=9는 'North America'이고, reg=10은 ’South America'이고, reg=11은 ‘Oceania' 일 때, 각 지역별로 heteroscedasticity(이분산성) 임을 알 수 있다.⑷ 독립성 진단 - Durbin-Watson D통계량 이용- 인접한 개체 간에 상관관계(독립성)를고, reg=8은 ‘East Europe'이고, reg=9는 'North America'이고, reg=10은 ’South America'이고, reg=11은 ‘Oceania' 일 때, 각 지역별로 heteroscedasticity(이분산성) 임을 알 수 있다.㉰, where모형 (18번째(Belarus), 97번째(Korea, Rep.), 191번째(Ukraine) 관측치들 제외)분석 : 국가 규모 변수와 경제 지표 변수들로 베이징 올림픽 메달 수에 대한 회귀모형식에 18번째(Belarus), 97번째(Korea, Rep.), 191번째(Ukraine) 관측치들 제외하고 각 지역별로 Weight(where)를 주어 회귀모형식을 다시 만든 결과, 모델의 적합성을 나타내는 ANOVA Table의 p-value가 0.0001보다 작으므로 이 모형은 유의하며, 인구를 제외한 나머지 설명변수들의 p-value가 충분히 작아서 유의함을 알 수 있다. 그러나 intercept의 p-value는 0.9658이고, 인구의 p-value는 0.5010으로 유의하지 않음을 알 수 있다.로 설명 변수가 반응 변수의 변동(분산)을 약 78% 정도 설명하고, 나머지 약 22% 정도는 우연 변동으로 해석할 수 있다. 이 분석을 통해 인구 변수를 제외한 나머지 GNI와 국토 면적의 변수로 Weight값을 재조정하여 회귀모형식을 다시 세워볼 필요가 있다.㉱, where모형 (18번째(Belarus), 97번째(Korea, Rep.), 191번째(Ukraine) 관측치들 제외, 인구 변수 제외)분석 : 국가 규모 변수와 경제 지표 변수들로 베이징 올림픽 메달 수에 대한 회귀모형식에 18번째(Belarus), 97번째(Korea, Rep.), 191번째(Ukraine) 관측치들 제외하고, 인구 변수를 제외한 후, 각 지역별로 Weight를 주어 회귀모형식을 다시 만든 결과, 모델의 적합성을 나타내는 ANOVA Table의 p-value가 0.0001보다 작으므로 이 모형은 유의하며, 모든 설명변수가 반응 변수의 변동(분산)을 약 79% 정도 설명하고, 나머지 약 21% 정도는 우연 변동으로 해석할 수 있다.5. 총 메달 수가 0인 국가들을 제외하고 설명변수를 국가규모(인구, 국토면적) 변수와 경제지표(GDP, GNI, External debt) 변수 선택- 최종 모형 :, where모형 (97번째(Korea, Rep.), 191번째(Ukraine) 관측치들 제외)분석 : 앞선 모형진단 방법들을 모두 고려한 후, 나온 최종 모형이다. GDP와 국토면적 변수들로 베이징 올림픽 메달 수에 대한 회귀모형식에 97번째(Korea, Rep.), 191번째(Ukraine) 관측치들 제외하고 각 지역별로 Weight를 주어 회귀모형식을 다시 만든 결과, 모델의 적합성을 나타내는 ANOVA Table의 p-value가 0.0001보다 작으므로 이 모형은 유의하며, 모든 설명변수들의 p-value가 충분히 작아서 유의함을 알 수 있다.으로 설명 변수가 반응 변수의 변동(분산)을 약 77% 정도 설명하고, 나머지 약 23% 정도는 우연 변동으로 해석할 수 있다.6. GDP와 인구 변수 선택㉮, where모형 (18번째(Belarus), 97번째(Korea, Rep.), 191번째(Ukraine) 관측치들 제외)분석 : 앞선 모형진단 방법들을 모두 고려한 후, 나온 최종 모형이다. GDP와 인구 변수들로 베이징 올림픽 메달 수에 대한 회귀모형식에 18번째(Belarus), 97번째(Korea, Rep.), 191번째(Ukraine) 관측치들 제외하고 각 지역별로 Weight를 주어 회귀모형식을 다시 만든 결과, 모델의 적합성을 나타내는 ANOVA Table의 p-value가 0.0001보다 작으므로 이 모형은 유의하며, 모든 설명변수들의 p-value가 충분히 작아서 유의함을 알 수 있다. 그러나 intercept의 p-value는 0.1560으로 유의하지 않음을 알 수 있다.으로 설명 변수가 반응 변수의 변동(분산)을 약 83% 정도 설명하고, 나머지 약 17% 정도. 또한
4.10.분석 : 첫 번째 포인트는 high leverage이며 두 번째 포인트는 leverage일 가능성이 있으며, Cook's distance와 DFITs 값을 보았을 때 influential point 이고 outlier임을 알 수 있다.4.12.a)분석 : (X1과 X6), (X2와 X6) 간에 multicollinearity 일 가능성이 있다.b)분석 :,whereanddiagonal element of,, DFITs =이다.c)d)분석 : 3번째 point와 15번째 point는 high leverage이며 8번째 point는 leverage일 가능성이 있다. Cook's distance와 DFITs를 보았을 때, 34번째와 38번째 point는 influential point이다. (, r) 도표를 보았을 때 34번째와 38번째 point가 outlier이다.4. 13.a)-Plot분석 :Plot에서 선형성이 있다고 판단할 수 있으며, 유의수준을 0.1로 할 때의 p-value값이 0.002로 아주 작으므로를 model에 넣을 수 있다.b)-Plot분석 :Plot에서 선형성이 있다고 판단할 수 없으며, 유의수준을 0.1로 할 때의 p-value값이 0.4599로 유의수준보다 크므로를 model에 넣을 수 없다.c)-Plot분석 :Plot에서 선형성이 있다고 판단할 수 없으며, 유의수준을 0.1로 할 때의 p-value값이 0.8571로 유의수준보다 크므로를 model에 넣을 수 없다.d)Model 1 :,= 0.9479Model 2 :,= 0.9359Model 3 :,= 0.9500Model 4 :,= 0.9494Model 5 :,= 0.9486따라서가 가장 큰 Model 3인를 선택하는 것이 좋다.4.5.a) There is a linear relationship between the response and predictor variables.→ Scatter plot, A-D plot, R+C plot- Valid - Invalidb) The observations are independent of each other.→ index plot of- Valid - Invalidc) The error terms have constant variance.→plot- Valid - Invalidd) The error terms are uncorrelated.→ index plot of- Valid - Invalide) The error terms are normally distributed.→ Normal Probility Plot, Q-Q Plot- Valid - Invalidf) The observations are equally influential on least squares results.→ Cook's distance, DFITs 사용- Valid - Invalid4.10.a)1. Y와의 linearity를 따지기 위해2. 독립변수들 간에 multicollinearity를 보기 위해3. 잔차들의 선형성 확인4. 잔차들의 등분산성 확인6. influencial point를 찾기 위해b)1. 2.3. 4.6.c)1. 2.3. 4.6.
5.3.분석 : 1사분기와 4사분기는 under estimate 되어있으며, 2사분기와 3사분기는 over estimate 되어있다고 볼 수 있다. 따라서 2사분기와 3사분기를 묶고, 1사분기와 4사분기를 묶어서 분석해야 할 것이다. 우선 분기를 dummy variable로 두고 z1을 1사분기일 때만 1, z2를 2사분기일 때만 1, z3를 3사분기일 때만 1, 4사분기는 z1, z2, z3 모두 0으로 생각한다.분석 : z1의 p-value가 0.5028로 유의하다고 보기 힘들며, z2와 z3의 coefficient 값이 거의 비슷하므로 추가적인 test가 필요하다.분석 : z1=0과 z2=z3을 test해 보았을 때, p-value가 0.7962로 z1=0과 z2=z3임을 알 수 있다.분석 : Q3/69와 Q3/70이범위 밖에 있으나 대체적으로 유의하다고 볼 수 있다.분석 : interaction을 넣어서 회귀모형식을 세웠을 때,와의 coefficient가 거의 비슷함을 알 수 있으며,과,,의 p-value값이 아주 크므로 추가적인 test가 필요하다.분석 : z1=0, z1pdi=0, z2pdi=0, z3pdi=0, z2=z3을 test 해봤을 때, p-value가 0.9928이므로 z1=0, z1pdi=0, z2pdi=0, z3pdi=0, z2=z3 임을 알 수 있다.분석 : 앞선 residual plot과 마찬가지로 Q3/69와 Q3/70이범위 밖에 있으나 대체적으로 유의하다고 볼 수 있다.분석 : z23=z2+z3으로 변수 변환하여 z2와 z3를 하나로 묶고 난 후 분석을 실시한다.의 회귀모형식이 ski sales를 잘 설명한다.분석 :의 residual plot을 그려보았을 때, 앞선 residual plot과 마찬가지로 Q3/69와 Q3/70이범위 밖에 있으나 대체적으로 유의하다고 볼 수 있으나 다른 분석 모형들과 다르게 parameter를 줄였다는 데에 의의가 있다.총분석 : interaction을 넣어서 회귀모형식을 세웠을 때모형식의 adjust R-square이 0.9710으로 다른 모형식보다 크며 모수절약차원에서 이 모형식을 쓰는 것이 타당하다.5.4.분석 : year를 dummy로 보고 t1, t2를 사용하여 t1을 1960년, t2를 1970년으로 두고, interaction을 고려해보았을 때, X3와 t1x3, t2x1의 p-value가 모두 0.5 이상이므로 유의하다고 볼 수 없다. 따라서 추가적인 test가 필요하다.분석 : x3=0, t1x3=0, t2x1=0을 test 해봤을 때, p-value가 0.7573이므로 3=0, t1x3=0, t2x1=0 임을 알 수 있다.분석 : 잔차 도표를 보았을 때, heterogenous한 것을 알 수 있다.분석 : leverage와 influential point을 확인해 보았을 때, 75년도 알래스카의 데이터가 influnetial point임을 확인할 수 있었다. 알래스카라는 지역의 특성상 다른 지역과 멀리 떨어져있고 경제가 서로 영향을 받지 않았기 때문이라는 추측할 해볼 수 있다.분석 : x3와 t1x3, t2x1을 빼고 회귀분석을 실시하였을 때, 모든 계수들이 유의함을 알 수 있다.분석 : 전의 잔차 도표와 마찬가지로 heterogeneous한 것을 알 수 있다.분석 : 모든 x1, x2 x3에 로그 변환을 취하고 interaction을 고려하여 회귀분석을 실시하였다. 이 경우, lnx3, t2, t1lnx1, t1lnx3, t2lnx1, t2lnx2의 p-value가 크기 때문에 추가적으로 test를 해봐야 한다.분석 : 1960년대 WY주, MS주, UT주, KY주, 1975년대 OH주가 outlier이며, 크게 벗어나는 1960년대 WY주와 1960년대 KY주, 두 point가 outlier인 이유를 찾아야 할 것이다.분석 : lnx3=0, t2=0, t1lnx1=0, t1lnx3=0, t2lnx1=0, t2lnx2=0을 test해 봤을 때, p-value가 0.2009로 lnx3=0, t2=0, t1lnx1=0, t1lnx3=0, t2lnx1=0, t2lnx2=0 임을 알 수 있다.분석 : lnx3, t2, t1lnx1, t1lnx3, t2lnx1, t2lnx2를 제외하고 회귀분석을 실시하였을 때, 모든 계수들이 유의함을 알 수 있다.분석 : 로그 변환을 했을 때 변환하지 않은 경우보다 잔차들의 폭이 조금 줄어들었다.분석 : 1960년대의 AL주, KY주, TN주, MS주, UT주와, 1970년대의 AK주, NM주와, 1975년대의 AK주, UT주가 high leverage point이다.분석 : Cook's distance를 사용하였을 때, 1960년대의 KY주와 AL주가 influential point일 가능성이 크며, DFITS를 사용하였을 때, 1960년대의 MS주, WY주, UT주, AL주, KY주와, 1975년대의 AK주가 influential point임을 알 수 있다.5.6.a) 동의 한다. 키는 variability가 작지만, 몸무게는 variability가 크므로 몸무게를 response variable로, 키를 predictor variable로 잡는 것이 좋다.b)분석 : 성별을 dummy로 넣지 않은 채로 회귀모형식을 세웠을 때 문제가 발생한다. 따라서 성별을 dummy를 넣고 회귀모형식을 세워야 한다.분석 : 성별을 dummy를 넣지 않은 채로 residual plot을 보았을 때, 1번째, 4번째, 20번째, 32번째 관측치의 남성과 27번째 관측치의 여성이 outlier임을 알 수 있다.c)분석 : interaction을 넣고 성별을 dummy variable로 해서 회귀분석을 실시하였을 때, age와 age_sex, height_sex의 계수들의 p-value가 아주 크므로 추가로 test를 실시해야 한다.분석 : age=0, age_sex=0, height_sex=0을 test 해봤을 때, p-value가 0.6293이므로 age=0, age_sex=0, height_sex=0 임을 알 수 있다.분석 : age와 age_sex, height_sex를 제거하고 회귀분석을 돌린 결과, intercept의 계수의 p-value가 0.4159로 유의하지 않음을 알 수 있다. 하지만, intercept가 유의하지 않더라도 intercept를 넣어서 모형을 세우는 경우가 대부분이기 때문에 intercept를 포함하였을 때 위의 모델식(where sex = 1 if ith student is female or sex = 0 if ith student is male)이 학생들의 키와 몸무게 사이의 관계를 가장 잘 설명하는 모델이다.분석 : intercept를 제외하고 회귀분석을 실행하였을 경우,(where sex = 1 if ith student is female or sex = 0 if ith student is male)의 모델이 adjust R-square가 0.9822로서 학생들의 키와 몸무게 사이의 관계를 가장 잘 설명하는 모델이다.d)분석 : intercept를 넣은 모델에 age를 넣고 회귀분석을 하였을 때, age의 p-value가 0.6054로 유의하지 않음을 알 수 있다. 이는 27살과 28살이 각각 1명씩 밖에 존재하지 않으므로 leverage point일 가능성이 크다. 따라서 age variable을 넣어봤자 age가 가지는 정보가 많지 않으므로 회귀모형식에 포함시킬 필요가 없다는 것을 알 수 있다.
6.1a)분석 : intercept와 p의 p-value는 유의하지만, R-square값이 0.1263으로 아주 낮으며,plot을 그려보았을 때 heteroscedasticity 이므로 fit가 잘 되지 않음을 알 수 있다.b)분석 :이 transform한 모델 중 가장 잘 fitted되며,plot을 보았을 때 homoscedasticity 임을 알 수 있다.분석 : plot of standardized residuals against P whenis regression on P and를 봤을 때, 23번째(True Story magazine), 15번째(Modern Bride magazine), 41번째(Soap Opera Digest magazine)관측치들이 outlier일 가능성이 존재한다.분석 : 23번째 관측치(True Story magazine)가 leverage point이며, Cook's dintance와 Difference in Fits를 통해 influential point임을 알 수 있다. 또한 15번째(Modern Bride magazine)와 22번째(Town and Country magazine) 관측치는 Difference in Fits를 통해 influential point임을 알 수 있다.c)분석 : 23번째(True Story magazine) 관측치는 high leverage이며 influential point이다. 여기서는 23번째 관측치를 제외했는데, advertising pages가 77쪽임에도 불구하고 advertising revenue가 아주 낮은 이유가 잡지가 유명하지 않아 사람들이 많이 보지 않으며 잡지의 주구독층이 아줌마에 targeting 되어있기 때문에 advertising revenue가 낮다고 생각하였다. 따라서 23번째(True Story magazine)와 15번째(Modern Bride magazine), 41번째(Soap Opera Digest magazine) 관측치를 제외하고 회귀분석을 실시하였다. 모델이 adj R-square=0.6792이며,plot을 보았을 때 homoscedasticity 하므로 acceptable regression equation임을 알 수 있다.6.2a)b)분석 : 모든 계수들의 p-value가 0.0001보다 작고, adj R-square=0.9724로 significant하지만,plot을 그려보았을 때 heteroscedasticity 이므로 fit가 잘 되지 않음을 알 수 있다.c)분석 :plot을 그렸을 때, residual이 curvilinear하므로 root transformation을 variable V에 취해주어야 한다.d)분석 :plot을 그렸을 때, residual이 linear하므로 T를 그대로 쓴다.e)분석 : 모델을 사용하였을 때, 모든 계수들의 p-value가 0.0001보다 작고, adj R-square=0.9852로 significant하지만,plot을 그려보았을 때 heteroscedasticity 이므로 fit가 잘 되지 않음을 알 수 있다.분석 : 모델을 사용하였을 때, 모든 계수들의 p-value가 0.0001보다 작고, adj R-square=0.9986로 significant하지만,plot을 그려보았을 때 homoscedasticity 이므로 fit가 잘 되었음을 알 수 있다.f) 없다.6.3a)-plot-plot- Normal probility plotb)-plot-plot- Normal probility plot분석 : V와 Y의plot과plot의 형태는 거의 비슷하다. 하지만 Normal probility plot에서 V보다 Y가 좀 더 acceptable 한 모습을 띄므로 Y가 V보다 normality assumption을 더 만족한다는 것을 알 수 있다.c)7.4- OLS method 사용(modeling by including interaction terms)-plot분석 :plot을 봤을 때, heteroscedasticity 함을 알 수 있다.-plot-plot-plot-plot분석 : Cook's distance와 Difference in Fits를 봤을 때, Alaska가 influential point임을 알 수 있으며, leverage point 임을 알 수 있다. 이제 Alaska를 제외할 것인지를 판단해야 한다. 1975년의 Alaska는 special situation이었다. 아주 작은 인구가 살고 있으며 1975년에 oil revenue boom이 일어나서 Alaska의 교육비용이 다른 주와는 다른 것을 알 수 있다. 따라서 Alaska를 제외하고 회귀분석을 실시한다.- AK를 제외하고 OLS method 사용(modeling by including interaction terms)-plot분석 :plot을 봤을 때, 여전히 heteroscedasticity 함을 알 수 있다.-plot-plot-plot-plot- AK를 제외하고 WLS method 사용(modeling by including interaction terms)-plot분석 :,,,를 계산하여 각각 가중치를 주어plot을 보았을 때, homoscedasticity 함을 알 수 있다.-plot-plot-plot-plot총분석 : indicator variables와 interaction terms를 추가한 후, Alaska 관측치를 제외한 다음 Weight를 주어 model을 세웠을 때, residual이 homoscedasticity 함을 알 수 있으며 책의 Section 7.4의 indicator variables와 interaction terms가 없는 model과 비교하였을 때에도 훨씬 나은 것을 알 수 있다. 또한