*준* 스토어

*준*

개인

팔로워0 팔로우

소개

등록된 소개글이 없습니다.

전문분야 등록된 전문분야가 없습니다.

판매자 정보

학교정보

입력된 정보가 없습니다.

직장정보

입력된 정보가 없습니다.

자격증

입력된 정보가 없습니다.

판매지수

판매중 자료수

3개
전체 판매량

9개
최근 3개월 판매량

0개
자료후기 점수

평균C
자료문의 응답률

-

전체자료 3개

[통계학] 회귀분석과 분산분석

◎ 수업시간에 한 예제 문제의 회귀분석 SAS프로그램은 다음과 같다.proc reg data = ex1;model _col2 = _col1;runSAS OUTPUT위 OUTPUT을 보면 회귀모형을 구할 수 있다. 회귀모형은 다음과 같다.PROC REG문을 사용하여 절편과 기울기 R-Square값을 쉽게 구할 수 있었다. 하지만 이번 과제는 직접 SST, SSR SSE를 구하여 R-Square값을 구해야만 한다. 우선 R-Square값을 구하기 위한 공식을 알아보도록 하겠다.결정계수 :- 총변동 가운데 회귀모형으로 설명되어지는 비율0≤R²≤1값을 가지며 값이 높으면 높을수록 좋다.위 과제를 해결하기 위하여 분산분석(ANOVA)을 실시하여 SST, SSR, SSE를 구한다음 결정계수(R-Square)을 구해보겠다.분산분석(ANOVA) SAS 프로그램data ex1_6;merge ex1 ex1_2;x = _col1; y= _col2;haty = -6.689931528 + 17.706037971*x;run,,SSR과 SSE를 값을 얻기 위해서 위 결과를 각 변수마다 대입해보면 알 수 있다. SSR과 SSE를 구해보면 다음과 같다.data ex1_7 (keep =SSE SSR);set ex1_6;SSE = (y - haty)**2SSR = (haty - bary)**2runproc means data = ex1_7 noprint ;var SSE SSR ;output out = ex1_8 sum = SSE SSR ;run첫 번째 프로그램은 각 변수들에서 SSE와 SSR값을 구하는 프로그램이다. 두 번째 프로그램은 각 변수들의 SSE와 SSR의 합을 한 프로그램이다. OUTPUT은 다음과 같다.이제는 SSE와 SSR을 구하였으니 SST를 구해서 결정계수를 구하면 된다. SST와 결정계수(R-Square)값을 구하는 SAS 프로그램은 다음과 같다.data ex1_9 (keep =SSE SSR SST Rsquare);set ex1_8;SST = SSE + SSR;Rsquare = SSR/SST;runSAS OUTPUT위 결과를 보면 SSE값과 SSR값 그리고 SST값이 구해졌고 과제의 목표인 결정계수(R-Square)이 구해졌다. PROC REG문을 이용한 결정계수(R-Square)값 0.8592와 분산분석(ANOVA)을 통한 결정계수(R-Square)값이 같음을 알 수 있다.

경영/경제| 2005.03.29| 3페이지| 1,000원| 조회(1,499)

SAS, 회귀분석, 분산분석

미리보기

닫기
[통계학] 상관계수 문제와 sas 실행문 평가C아쉬워요

◎ 상관계수: 두 변수들 간의 상대적인 선형관련성의 크기를 나타내는 척도⇒ 상관계수에는 양적 변수들의 선형관련성을 측정하는 피어슨(K. Pearson)의 적률생성계수(product moment correlation coefficient), 질적 변수들에 주로 적용되는 스피어맨(C. Spearman)의 순위상관계수(rank correlation coefficient), 그리고 세 변수 이상을 고려하는 편상계수(partial correlation coefficient)등이 있다.◎ 표본상관계수:◎ 표본상관계수의 성질1. 표본상관계수는는 두 변수들 간의 선형관련성의 정도를 나타내는 척도가 된다.2. 표본상관계수의 범위는 -1≤≤1이다.3. 두 변수가 독립이면=0이 된다.4. 표본상관계수의 값이=±1 일 때 완전상관이라 하고, 0보다 큰 경우에는 양의 상관, 0보다 작은 경우에는 음의상관이라고 한다.5. 높은 상관관계를 갖는다고 해서 필수적으로 두 변수들 간에 인과관계를 가지는 것은 아니다.◎ 문제풀이[예제 1] 어느 기업에서는 생산직원의 작업생산성(X)에 따라 임금인상률(Y)을 결정하고 있다. 생산성과 임금인상률과의 상관관계를 분석하기 위하여 생산직원 20명에 대한 개별 생산성과 개별 임금인상률을 아래와 같이 조사하였다. 다음 절차에 따라 상관분석을 하여라.생산성(X)47 71 64 35 43 60 38 59 67 5667 57 69 38 54 76 53 40 47 23임금인상률(Y)4.2 8.1 6.8 4.3 5.0 7.5 4.7 5.9 6.9 5.75.7 5.4 7.5 3.8 5.9 6.3 5.7 4.0 5.2 2.2(1) 작업생산성(X)에 대한 임금인상률(Y)의 산점도를 그려라.(2) 두 변수에 대한 표본상관계수를 구하고, 그 의미를 해석하여라.(3) 유의수준 5%에서 상관계수를 검정하여라.◈ 위의 문제를 풀기 위한 SAS PROGRAM은 다음과 같다.data ex1;input x y @@;XY=X*Y;X2=X**2Y2=Y**2cards47 4.2 71 8.1 64 6.8 35 4.3 43 5.0 60 7.5 38 4.7 59 5.9 67 6.9 56 5.767 5.7 57 5.4 69 7.5 38 3.8 54 5.9 76 6.3 53 5.7 40 4.0 47 5.2 23 2.2runproc corr data=ex1;var x y;run(1) 산점도(scatter plot)◈ 산점도를 그리기 위한 SAS PROGRAM은 PROC GPLOT문장을 사용하여 구할 수 있다.프로그램은 다음과 같다.symbol1 c=red v=dot h=3 i=none;title 'scatter plot'footnote 'park jun han'proc gplot data=ex1;plot y*x;run⇒ 밑에 있는 산점도를 보면 작업생산성(x)과 임금인상률(y)은 직선을 그렸을 때 직선 주변에 주로 분포 되어 있는 것을 볼 수 있다. 따라서 작업생산성(x)과 임금인상률(y)은 양의 상관관계가 있음을 볼 수 있다.(2) 표본상관계수표본상관계수를 구하기 위해서 위 SAS 프로그램의 결과를 보면 알 수 있다. 그 결과치는 다음과 같다.⇒ 작업생산성(x)의 평균은 53.2이고 표준편차는 14.04이고 임금인상률(y)의 평균 5.54이고표준편차는 1.44이다. 표본상관계수()는 0.89017로 확인 할 수 있다. 따라서 작업생산성(x)과 임금인상률(y)은 양의 상관이라 말할 수 있다.(3) 유의수준 5%에서 가설검정◈ 두 변수들 간에는 상관관계가 존재하지 않는다는 가설에 대한 검정은 다음과 같이 정의되는 T-통계량을 이용할 수 있다.즉, 두 변수의 상관계수가=0인 정규모집단에서 크기 n인 표본을 추출하여 이들의 표본상관계수를로 나타낸 식이 위의 식이며 T는 자유도 n-2인 t-분포를 따르게 된다.◈ 상관계수에 대한 검정검정통계량:~t-분포(df=n-2)임계값:판정:, 혹은면, 귀무가설을 기각 즉 상관관계가 존재하는 것으로 판정.⇒ 위 SAS OUTPUT을 보면 유의확률(P-Value)은 0.0001이므로 유의수준 0.05보다 작다. 이에 귀무가설을 기각하고 대립가설을 채택한다. 따라서 작업생산성(x)과 임금인상률(y)은 상관관계가 있다고 판정할 수 있다.[예제2] 어느 대기업에 근무하는 직원의 연봉(Y), 나이(X1), 근무경력(X2) 사이에 어떤 관계가 있는지 상관분석을 하기 위하여 아래와 같이 직원 10명에 대한 자료를 얻었다. 여기서 관심사는 연봉과 나이, 연봉과 근무경력, 나이와 근무경력 사이에 선형적인 관계가 있는지 여부를 조사하는 것이다. 다음 절차에 따라서 상관분석하여라직원1 2 3 4 5 6 7 8 9 10연봉(Y)52 35 45 28 42 60 31 38 33 48나이(X1)52 47 38 25 44 55 36 40 32 50근무경력(X2)33 21 14 3 18 30 8 15 7 27(1) 연봉과 나이, 연봉과 근무경력, 나이와 근무경력에 대한 산점도를 그려라.(2) 세 변수(Y, X1, X2)에 대한 상관행렬을 구하고, 그 의미를 설명하여라.(3) 유의수준 5%에서 상관계수를 검정하여라.(1) 산점도(scatter plot)⇒ 위의 산점도를 보면 비슷한 형태의 분포를 볼 수 있다. 연봉(Y)과 나이(X1), 근무경력(X2)간의 관계된 산점도 모양이 비슷하므로 모두 양의 상관관계가 있다가 볼 수 있다.(2) 상관행렬표본상관계수는 두 변수(k 번째 와 j 번째) 사이의 선형관계를 보여주며를 만족하며이다. 이들 상관계수로부터 크기가인 표본상관행렬(sample correlation matrix)을로 정의할 수 있다.(3) 유의수준5%에서의 검정⇒ 표본상관계수를 구하는 SAS프로그램은 다음과 같다. 위 1번 문제와 같이 PROC CORR문을 사용하여 표본상관계수를 구하였다.proc corr data=ex2;var y X1 x2;run◈ 상관계수에 대한 검정검정통계량:~t-분포(df=n-2)임계값:판정:, 혹은면, 귀무가설을 기각 즉 상관관계가 존재하는 것으로 판정.⇒직원의 연봉(Y), 나이(X1), 근무경력(X2)은 모두 유의확률(P-Value)이 유의수준 0.05보다 작으므로 귀무가설을 기각한다. 직원의 연봉(Y), 나이(X1), 근무경력(X2) 간에는 상관관가 존재한다고 판정할 수 있다.[예제 3] 위의 예제에서 어느 대기업에 근무하는 직원의 연봉(Y), 나이(X1), 근무경력(X2) 사이에 어떤 관계가 있는지 상관분석을 하기 위하여 직원 10명에 대한 자료를 얻었다. 나이(X1)를 통제했을 때 연봉(Y)과 근무경력(X2)의 부분상관계수를 구하고 앞의 예제에서 구한 표본상관계수와 비교하여라.⇒부분상관계수를 구하는 SAS 프로그램은 다음과 같다.proc corr data=ex2;var y x2;partial x1;run*SAS OUTPUT*⇒앞의 표본상관계수와는 달리 나이(X1)를 통제하고 연봉(Y)과 근무경력(X2)의 부분상관계수를 구한 값과 위의 유의수준 5%에서 검정한 경우와 비교해보았다. 우선 표본상관계수는 유의확률(P-Value)이 0.05보다 작아 귀무가설을 기각하였다. 그러나 연봉(Y)과 근무경력(X2)의 부분상관계수를 구한 값은 유의수준 5%에서 검정하였을 때 유의확률(P-Value)이 유의수준 0.05보다 크므로 귀무가설을 채택한다. 따라서 표본상관계수와는 달리 연봉(Y)과 근무경력(X2)간의 상관관계는 없다고 판정된다.[예제 5] 다음 유치원교사와 초등학교 교사를 대상으로 설문조사를 실시한 결과이다. 두 집단의 차이가 있는지를 살펴보아라.(문항) 읽기, 쓰기지도 계획시 목표 및 내용을 설정하실 때 고려하시는 사항은?1. 읽기, 쓰기 지도를 위한 별도의 계획을 세우지 않는다

경영/경제| 2005.03.28| 10페이지| 1,000원| 조회(2,043)

SAS, 통계학, 상관계수

미리보기

닫기
[통계학] 회귀분석과 분산분석

회귀분석{모형 model{Y_i = alpha + beta x_i + epsilon _i`, {epsilon _i sim (0,sigma^2 )`independently {(i=1, cdots, n)(선형성, 등분산성, 독립성)회귀모형에서의 추정 : 최소제곱법{sum _i=1 ^n left{ Y_i - (alpha + beta x_i ) right} ^2 `의 최소로 하는 {alpha, beta를 회귀계수의 추정량으로 한다.{hat alpha = bar y - hat beta bar x , `{hat beta = {sum _i=1 ^n (x_i - bar x ) (y_i - bar y )} over {sum_i=1 ^n (x_i - bar x )^2 }{hat y ``=`` hat alpha + hat beta x{``=`` bar y + hat beta ( x - bar x )``{{{alpha `+` beta x_i{(x_i ,` y_i )가설검정 : {H_0 ~:~beta=0 `vs {H_1 ~:~ beta neq 0`회귀직선의 유의성 검정을 위한 분산분석표 (ANOVA){요 인제곱합자유도평균제곱F 값유의확률회 귀SSR1MSR=SSR/1f=MSR/MSEP(F>=f)잔 차SSEn-2MSE=SSE/(n-2)계SSTn-1모회귀계수 {beta`에 관한 추론{hat beta `의 분포 : {{ hat beta - beta} over {hat sigma / sqrt{S_xx } `} sim t (n-2), 단, {S_xx = sum _i=1 ^n ( x_i - bar x )^2`평균반응 {E(Y|x) = alpha + beta x `에 대한 추론{hat E(Y|x) = hat alpha + hat beta x `의 분포 : {{(hat alpha + hat beta x ) - (alpha + beta x ) } over { sqrt{(n^-1 + (x - bar x )^2 / S_xx ) hat sigma^2 }} ``sim `` t(n-2)`절편 {alpha`에 관한 추론 {hat alpha`의 분포 :{{hat alpha - alpha } over { sqrt{(n^-1 + {bar x} ^2 / S_xx ) hat sigma^2 }} ``sim `` t(n-2)`{H_0 ~:~{b_1}=0 `{H_1 ~:~ b_1 neq 0`{SSdpMSF모형(R)SSR1SSR/1=MSRMSR/MSE오차(E)SSEn-2SSE/N-2=MSE총합(T)SSTn-1P-Value(귀무가설을 채택할 확률){결정계수 : {R^2 ~=~ {`SSR`} over {`SST`}- 총변동 가운데 회귀모형으로 설명되어지는 비율0≤R ≤1값을 가지며 값이 높으면 높을수록 좋다.{독립성 검토 : Durbin - Watson 검정{d ~=~ {SUM from{i=1} to{n} `(e_i `-` e_i-1 )^2} over {SUM from{i=1} to{n} `e_i ^2}=2(1-{r^x})} {} ,{r^x ~=~ {{SUM from{x=2} to{n} `(e_x `` e_x-1 )}}over {SUM from{i=1} to{n} `e_i ^2}}{d∼ 4 : 오차들이 음의 상관관계∼ 0 : 오차들이 양의 상관관계∼ 2 : 오차항들은 독립{proc means data=EX1 NOPRINT;var _col1 _col2;output out=EX1_1 MEAN=BARX BARY;run;DATA EX1_2(KEEP=BARX BARY);SET EX1_1;DO I=1 TO 20; OUTPUT;END;RUN;DATA EX1_3;MERGE EX1 EX1_2;X=_COL1; Y=_COL2;B1_1=(X-BARX)**2;B1_2=(X-BARX)*(Y-BARY);RUN;PROC MEANS DATA=ex1_3 NOPRINT;VAR B1_1 B1_2;ID BARX BARY;OUTPUT OUT=ex1_4 SUM=B1_1 B1_2;RUN;DATA ex1_5(KEEP=B1 B0);SET ex1_4;B1=B1_2/B1_1;B0=BARY-(B1*BARX);RUN;{proc reg data=ex1;model _col2=_col1;output out=reg1 p=yhatr=residual;run;분산분석일요인 분산분석의 가정사항과 가설{n_i: 정규 모집단 {N(mu_i`, sigma^2 )에서 추출한 {i번째 단순 임의 표본의 수{mu_i: 서로 다를 수도 있음{sigma^2: 모든 모집단 동일통계적 모형 : {x_ij`=`mu_i`+` epsilon _ij`,{i`=`1,2, DOTSLOW ,I,~j`=`1,2,DOTSLOW,n_i가설 : {H_0`:`mu_1`=`mu_2`=` DOTSLOW `=`mu_I{H_1`:`적어도 ~하나의~ mu_i`는 ~서로 ~다르다.검정통계량 : {F`=`MSA over MSE`=` { SSQ`/`I`-`1} over {SSE`/`N`-`I}기각역 : {F`>`F~(alpha`;`I`-`1`,`N`-`I `)10.3. 이요인 분산분석이요인 분산분석 모형 : {X_ijk`=`mu`+`alpha_i `+`beta_j`+` epsilon _ijk{mu: 전체 모평균{alpha_i: 요인 A의 효과, {i`=`1,2, DOTSLOW ,I{beta_j: 요인 B의 효과, {j`=`1,2, DOTSLOW ,J{epsilon _ijk: {N(0,sigma^2 )에 따르는 오차항으로 서로 독립, {k`=`1,2, DOTSLOW ,K이요인 분산분석표{요인자유도편차제곱합평균제곱FAB오차DFA=I-1DFB=J-1DFE=IJK-I-J-1SSASSBSSEMSA=SSA/DFAMSB=SSB/DFBMSE=SSE/DFEMSA/MSEMSB/MSE합DFT=IJK-1SST이요인 분산분석에서 유의성 검정1 주효과 A를 검정하기 위해가설 : {H_0`:`alpha_1`=`alpha_2`=` DOTSLOW `=`alpha_I`=`0{H_1`:`alpha_i`중~적어도~하나는~0이~아니다.검정통계량 : {F_A`=` MSA OVER MSE기각역 : {F_A`>`F~(alpha`;`DFA`,`DFE`)2 주효과 B를 검정하기 위해가설 : {H_0`:`beta_1`=`beta_2`=` DOTSLOW `=`beta_J`=`0{H_1`:`beta_j`중~적어도~하나는~0이~아니다.검정통계량 : {F_B`=` MSB OVER MSE검정방법은 주효과 A를 검정하는 절차와 동일

경영/경제| 2005.03.28| 5페이지| 1,000원| 조회(720)

통계학, 분산, 회귀

미리보기

닫기