◎ 수업시간에 한 예제 문제의 회귀분석 SAS프로그램은 다음과 같다.proc reg data = ex1;model _col2 = _col1;runSAS OUTPUT위 OUTPUT을 보면 회귀모형을 구할 수 있다. 회귀모형은 다음과 같다.PROC REG문을 사용하여 절편과 기울기 R-Square값을 쉽게 구할 수 있었다. 하지만 이번 과제는 직접 SST, SSR SSE를 구하여 R-Square값을 구해야만 한다. 우선 R-Square값을 구하기 위한 공식을 알아보도록 하겠다.결정계수 :- 총변동 가운데 회귀모형으로 설명되어지는 비율0≤R²≤1값을 가지며 값이 높으면 높을수록 좋다.위 과제를 해결하기 위하여 분산분석(ANOVA)을 실시하여 SST, SSR, SSE를 구한다음 결정계수(R-Square)을 구해보겠다.분산분석(ANOVA) SAS 프로그램data ex1_6;merge ex1 ex1_2;x = _col1; y= _col2;haty = -6.689931528 + 17.706037971*x;run,,SSR과 SSE를 값을 얻기 위해서 위 결과를 각 변수마다 대입해보면 알 수 있다. SSR과 SSE를 구해보면 다음과 같다.data ex1_7 (keep =SSE SSR);set ex1_6;SSE = (y - haty)**2SSR = (haty - bary)**2runproc means data = ex1_7 noprint ;var SSE SSR ;output out = ex1_8 sum = SSE SSR ;run첫 번째 프로그램은 각 변수들에서 SSE와 SSR값을 구하는 프로그램이다. 두 번째 프로그램은 각 변수들의 SSE와 SSR의 합을 한 프로그램이다. OUTPUT은 다음과 같다.이제는 SSE와 SSR을 구하였으니 SST를 구해서 결정계수를 구하면 된다. SST와 결정계수(R-Square)값을 구하는 SAS 프로그램은 다음과 같다.data ex1_9 (keep =SSE SSR SST Rsquare);set ex1_8;SST = SSE + SSR;Rsquare = SSR/SST;runSAS OUTPUT위 결과를 보면 SSE값과 SSR값 그리고 SST값이 구해졌고 과제의 목표인 결정계수(R-Square)이 구해졌다. PROC REG문을 이용한 결정계수(R-Square)값 0.8592와 분산분석(ANOVA)을 통한 결정계수(R-Square)값이 같음을 알 수 있다.
◎ 상관계수: 두 변수들 간의 상대적인 선형관련성의 크기를 나타내는 척도⇒ 상관계수에는 양적 변수들의 선형관련성을 측정하는 피어슨(K. Pearson)의 적률생성계수(product moment correlation coefficient), 질적 변수들에 주로 적용되는 스피어맨(C. Spearman)의 순위상관계수(rank correlation coefficient), 그리고 세 변수 이상을 고려하는 편상계수(partial correlation coefficient)등이 있다.◎ 표본상관계수:◎ 표본상관계수의 성질1. 표본상관계수는는 두 변수들 간의 선형관련성의 정도를 나타내는 척도가 된다.2. 표본상관계수의 범위는 -1≤≤1이다.3. 두 변수가 독립이면=0이 된다.4. 표본상관계수의 값이=±1 일 때 완전상관이라 하고, 0보다 큰 경우에는 양의 상관, 0보다 작은 경우에는 음의상관이라고 한다.5. 높은 상관관계를 갖는다고 해서 필수적으로 두 변수들 간에 인과관계를 가지는 것은 아니다.◎ 문제풀이[예제 1] 어느 기업에서는 생산직원의 작업생산성(X)에 따라 임금인상률(Y)을 결정하고 있다. 생산성과 임금인상률과의 상관관계를 분석하기 위하여 생산직원 20명에 대한 개별 생산성과 개별 임금인상률을 아래와 같이 조사하였다. 다음 절차에 따라 상관분석을 하여라.생산성(X)47 71 64 35 43 60 38 59 67 5667 57 69 38 54 76 53 40 47 23임금인상률(Y)4.2 8.1 6.8 4.3 5.0 7.5 4.7 5.9 6.9 5.75.7 5.4 7.5 3.8 5.9 6.3 5.7 4.0 5.2 2.2(1) 작업생산성(X)에 대한 임금인상률(Y)의 산점도를 그려라.(2) 두 변수에 대한 표본상관계수를 구하고, 그 의미를 해석하여라.(3) 유의수준 5%에서 상관계수를 검정하여라.◈ 위의 문제를 풀기 위한 SAS PROGRAM은 다음과 같다.data ex1;input x y @@;XY=X*Y;X2=X**2Y2=Y**2cards47 4.2 71 8.1 64 6.8 35 4.3 43 5.0 60 7.5 38 4.7 59 5.9 67 6.9 56 5.767 5.7 57 5.4 69 7.5 38 3.8 54 5.9 76 6.3 53 5.7 40 4.0 47 5.2 23 2.2runproc corr data=ex1;var x y;run(1) 산점도(scatter plot)◈ 산점도를 그리기 위한 SAS PROGRAM은 PROC GPLOT문장을 사용하여 구할 수 있다.프로그램은 다음과 같다.symbol1 c=red v=dot h=3 i=none;title 'scatter plot'footnote 'park jun han'proc gplot data=ex1;plot y*x;run⇒ 밑에 있는 산점도를 보면 작업생산성(x)과 임금인상률(y)은 직선을 그렸을 때 직선 주변에 주로 분포 되어 있는 것을 볼 수 있다. 따라서 작업생산성(x)과 임금인상률(y)은 양의 상관관계가 있음을 볼 수 있다.(2) 표본상관계수표본상관계수를 구하기 위해서 위 SAS 프로그램의 결과를 보면 알 수 있다. 그 결과치는 다음과 같다.⇒ 작업생산성(x)의 평균은 53.2이고 표준편차는 14.04이고 임금인상률(y)의 평균 5.54이고표준편차는 1.44이다. 표본상관계수()는 0.89017로 확인 할 수 있다. 따라서 작업생산성(x)과 임금인상률(y)은 양의 상관이라 말할 수 있다.(3) 유의수준 5%에서 가설검정◈ 두 변수들 간에는 상관관계가 존재하지 않는다는 가설에 대한 검정은 다음과 같이 정의되는 T-통계량을 이용할 수 있다.즉, 두 변수의 상관계수가=0인 정규모집단에서 크기 n인 표본을 추출하여 이들의 표본상관계수를로 나타낸 식이 위의 식이며 T는 자유도 n-2인 t-분포를 따르게 된다.◈ 상관계수에 대한 검정검정통계량:~t-분포(df=n-2)임계값:판정:, 혹은면, 귀무가설을 기각 즉 상관관계가 존재하는 것으로 판정.⇒ 위 SAS OUTPUT을 보면 유의확률(P-Value)은 0.0001이므로 유의수준 0.05보다 작다. 이에 귀무가설을 기각하고 대립가설을 채택한다. 따라서 작업생산성(x)과 임금인상률(y)은 상관관계가 있다고 판정할 수 있다.[예제2] 어느 대기업에 근무하는 직원의 연봉(Y), 나이(X1), 근무경력(X2) 사이에 어떤 관계가 있는지 상관분석을 하기 위하여 아래와 같이 직원 10명에 대한 자료를 얻었다. 여기서 관심사는 연봉과 나이, 연봉과 근무경력, 나이와 근무경력 사이에 선형적인 관계가 있는지 여부를 조사하는 것이다. 다음 절차에 따라서 상관분석하여라직원1 2 3 4 5 6 7 8 9 10연봉(Y)52 35 45 28 42 60 31 38 33 48나이(X1)52 47 38 25 44 55 36 40 32 50근무경력(X2)33 21 14 3 18 30 8 15 7 27(1) 연봉과 나이, 연봉과 근무경력, 나이와 근무경력에 대한 산점도를 그려라.(2) 세 변수(Y, X1, X2)에 대한 상관행렬을 구하고, 그 의미를 설명하여라.(3) 유의수준 5%에서 상관계수를 검정하여라.(1) 산점도(scatter plot)⇒ 위의 산점도를 보면 비슷한 형태의 분포를 볼 수 있다. 연봉(Y)과 나이(X1), 근무경력(X2)간의 관계된 산점도 모양이 비슷하므로 모두 양의 상관관계가 있다가 볼 수 있다.(2) 상관행렬표본상관계수는 두 변수(k 번째 와 j 번째) 사이의 선형관계를 보여주며를 만족하며이다. 이들 상관계수로부터 크기가인 표본상관행렬(sample correlation matrix)을로 정의할 수 있다.(3) 유의수준5%에서의 검정⇒ 표본상관계수를 구하는 SAS프로그램은 다음과 같다. 위 1번 문제와 같이 PROC CORR문을 사용하여 표본상관계수를 구하였다.proc corr data=ex2;var y X1 x2;run◈ 상관계수에 대한 검정검정통계량:~t-분포(df=n-2)임계값:판정:, 혹은면, 귀무가설을 기각 즉 상관관계가 존재하는 것으로 판정.⇒직원의 연봉(Y), 나이(X1), 근무경력(X2)은 모두 유의확률(P-Value)이 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 직원의 연봉(Y), 나이(X1), 근무경력(X2) 간에는 상관관가 존재한다고 판정할 수 있다.[예제 3] 위의 예제에서 어느 대기업에 근무하는 직원의 연봉(Y), 나이(X1), 근무경력(X2) 사이에 어떤 관계가 있는지 상관분석을 하기 위하여 직원 10명에 대한 자료를 얻었다. 나이(X1)를 통제했을 때 연봉(Y)과 근무경력(X2)의 부분상관계수를 구하고 앞의 예제에서 구한 표본상관계수와 비교하여라.⇒부분상관계수를 구하는 SAS 프로그램은 다음과 같다.proc corr data=ex2;var y x2;partial x1;run*SAS OUTPUT*⇒앞의 표본상관계수와는 달리 나이(X1)를 통제하고 연봉(Y)과 근무경력(X2)의 부분상관계수를 구한 값과 위의 유의수준 5%에서 검정한 경우와 비교해보았다. 우선 표본상관계수는 유의확률(P-Value)이 0.05보다 작아 귀무가설을 기각하였다. 그러나 연봉(Y)과 근무경력(X2)의 부분상관계수를 구한 값은 유의수준 5%에서 검정하였을 때 유의확률(P-Value)이 유의수준 0.05보다 크므로 귀무가설을 채택한다. 따라서 표본상관계수와는 달리 연봉(Y)과 근무경력(X2)간의 상관관계는 없다고 판정된다.[예제 5] 다음 유치원교사와 초등학교 교사를 대상으로 설문조사를 실시한 결과이다. 두 집단의 차이가 있는지를 살펴보아라.(문항) 읽기, 쓰기지도 계획시 목표 및 내용을 설정하실 때 고려하시는 사항은?1. 읽기, 쓰기 지도를 위한 별도의 계획을 세우지 않는다