통뎨 스토어

통뎨

개인인증

팔로워0 팔로우

소개

등록된 소개글이 없습니다.

전문분야 등록된 전문분야가 없습니다.

판매자 정보

학교정보

입력된 정보가 없습니다.

직장정보

입력된 정보가 없습니다.

자격증

입력된 정보가 없습니다.

판매지수

판매중 자료수

13개
전체 판매량

376개
최근 3개월 판매량

0개
자료후기 점수

평균B
자료문의 응답률

0%

전체자료 13개

판매자 표지

예제를 통한 회귀분석 6장 연습문제 솔루션 평가D별로예요

6.2-a.data gator; input length choice $ @@; cards; 1.24 I 1.30 I 1.30 I 1.32 F 1.32 F 1.40 F 1.42 I 1.42 F 1.45 I 1.45 O 1.47 I 1.47 F 1.50 I 1.52 I 1.55 I 1.60 I 1.63 I 1.65 O 1.65 I 1.65 F 1.65 F 1.68 F 1.70 I 1.73 O 1.78 I 1.78 I 1.78 O 1.80 I 1.80 F 1.85 F 1.88 I 1.93 I 1.98 I 2.03 F 2.03 F 2.16 F 2.26 F 2.31 F 2.31 F 2.36 F 2.36 F 2.39 F 2.41 F 2.44 F 2.46 F 2.56 O 2.67 F 2.72 I 2.79 F 2.84 F 3.25 O 3.28 O 3.33 F 3.56 F 3.58 F 3.66 F 3.68 O 3.71 F 3.89 F

자연과학| 2022.05.17| 5페이지| 4,000원| 조회(1,027)

회귀분석, 통계학과, 범주형 자료 분석, 예제를 통한 회귀분석 6장

미리보기

닫기
R 시각화와 통계자료분석 1 4장 연습문제

##4장###1. OrchardSprays 자료는 꿀벌(honey)에게 유황의 함량에 따른 스프레이의 효과를 측정한 자료로, 64개의 관측값과 4개의 변수를 가진 데이터프레임이다. 8개의 처리(treatment : A~H)에 따른 용해액의 감소량(decrease)을 상자그림과 띠그래프로 나타내어라.#treatment factor별로 추출하여 이름을 붙인다(A~H)띠그래프는 상자그림과 함께 그린다.위의 방법은 변수를 하나하나 지정하기 때문에 너무 번거롭다. 하지만 겹쳐그릴 수 있다는 장점이 있다.2번째 방법이 훨씬 간결하지만 두 그림을 함께 그릴 수 없다는 단점이 있다.#2. VADeaths 자료는 1940년 미국 버지니아주에서 부그룹별로 인구 1000명당 사망률을 기록한 자료이다. 5행과 4열로 구성된 행렬자료이다. VADeaths 자료에 대해 점도표, 막대그래프, 인구피라미드 그림을 그려라.#(1) 점도표##(2) 막대그래프 ##(3) 인구피라미드 그림#인구피라미드 그림은 Rural과 Urban을 나누어서 하기로 한다.주의할 점! : pyramid 함수는 반드시 데이터프레임형 이어야한다. 따라서 전처리를 다음과 같이 해준다.Rural Urban#3. VADeaths 자료에 대해 파이차트, 도넛차트, 와플차트를 그려라.#(1) 파이차트두 차트가 구분이 잘 되지 않으므로 괄호안에 백분율도 추가하였다.#(2) 도넛차트도넛차트에서 데이터형식은 데이터프레임 이어야한다. 또한 최소한 2개의 행이 있어야 하는데 하나는 label에 나타낼 자료, 하나는 값이어야한다. 따라서 전처리는 다음과 같이 행이름을 없앤다.도넛차트는 Rural Male, Rural Female, Urban Male, Urban Female 별로 나누어서 구한다.먼저 전처리한 data2 데이터에서 Rural Male에 해당하는 값만 추출하여 이름을 dat라고 지정하였다.Rural Female, Urban Male, Urban Female도 이와 마찬가지로 수행한다.#(3) 와플차트도넛차트는 Rural Male, Rural Female, Urban Male, Urban Female 별로 나누어서 구한다.와플형 차트는 숫자형 벡터여야 한다 따라서 전처리는 다음과 같이 수행한다. 먼저 Rural Male을 구해본다.Saving/ ? 에서 ?에 적당한 수를 넣어서 칸수를 조절해야한다.Rural Female, Urban Male, Urban Female도 이와 마찬가지로 수행한다.

자연과학| 2021.11.07| 6페이지| 2,500원| 조회(201)

r, 빅데이터시각화, R 시각화와 통계자료 분석

미리보기

닫기
예제를 통한 회귀분석 5장 solution 평가D별로예요

5.1 참게 자료에 대해(www.stat.ufl.edu/~aa/intro-cda/appendix.html), 무게와 너비를 예측변수로 하는 모형을 적합하라.a. 예측식을 구하고 효과를 해석하라.proc logistic data=crab descending;model y=width weight;run;width가 1cm증가할때마다 부수체를 가질 오즈가 =1.513배가 된다.weight가 1kg증가할때마다 부수체를 가질 오즈가 =1.43배가 된다.b. 어떤 예측변수도 반응변수에 영향을 주지 않는다는 가설 에 대한 가능도비 검정을 실시하고 결과를 해석하라.가능도비 검정의 p-값이 매우 작으므로 귀무가설을 기각할 수 있다. 따라서 어떤 예측변수도 반응변수에 영향을 주지 않는다고 할 수 없다.c. 각 변수의 부분효과에 대해 각각 가능도비 검정을 실시하라. 왜 (b)의 검정 방법에서는 매우 유의하게 나오지만 각각의 검정에서는 그렇지 않은가?(b)의 검정방법의 귀무가설은 이므로 모든 예측변수에 대한 검정이다.하지만 ©의 검정방법의 귀무가설은 하나하나의 예측변수에 대한 검정이기 때문에 결과가 다를 수 있다. (b)에서는 어떤 예측변수도 반응변수에 영향을 주지 않는다고 할 수 없지만 (c)에서는 weight변수는 p-값이 0.05보다 크기 때문에 예측변수에 영향을 주지 않는다.5.2 참게 자료에서 무게, 등뼈상태, 색깔(명목형 변수)이 예측변수일 때 단계적 변수 선택법을 이용하여 좋은 모형을 선택하라.proc logistic data=crab descending;class color ;model y=color spine weight/selection=stepwise;run;단계적변수 선택법에서 width변수가 없어진다.따라서 최종모형은 이다.5.3 참게 자료에서 너비(W) 색깔(C)과 등뼈상태(S)를 예측변수로 사용한 가장 복잡한 모형을 가지고 후진제거법을 적용해보자. C*S*W는 세 예측변수 각각에 대한 주효과와 세 개의 이차 교호작용과 하나의 삼차 교호작용을 포함하는 모형 (173.68-170.44)=3.24 < = 3.84 따라서 귀무가설을 기각할 수 없다.따라서 교호작용항은 이 모형에서 제거될 수 있다.b. 다음 단계에서 만약 하나의 항을 더 제거해야 한다면 모형 C*S+ C*W을 선택해야 되는 이유를 설명하라.AIC가 작을수록 좋은 모형이라고 할 수 있다. 모형 3a, 3b, 3c중에서 가장 AIC가 큰 모형은 3a이다.따라서 모형 C*S+ C*W를 제거해야한다.c. 이 단계에서 이 모형과 S+C*W을 비교한 결과 이탈도는 8.0 (df = 6 (P-값 = 0.24))이다; W+C*S와 비교한 결과 이탈도는 3.9 (df = 3 (P-값 = 0.27))이다. 어떤 항을 제거해야 하는가?이탈도가 큰 항을 제거해야한다. S+C*W의 이탈도가 더 크므로 S+W*S을 제거해야한다.d. 마지막으로 앞에서 선택한 모형을 주효과 모형 C+S+W 와 비교하라. 주효과 모형으로 축소시킬 수 있는가?가능도비 통계량: (186.61-181.64)=4.97 > = 3.84 이므로 귀무가설을 기각할 수 있다.따라서 주효과 모형으로 축소시킬 수 없다.e. 표에 있는 모형들 중에서 어떤 모형이 AIC의 기준에서 가장 적절한가?AIC가 작을수록 적합한 모형이다. 따라서 C+S+W모형이 가장 적절하다고 할 수 있다.표 5.9 참게 자료에 대한 로지스틱 회귀모형모형예측변수이탈도자유도AIC1C*S*W170.44152212.42C*S+C*W+S*W173.68155209.73aC*S+C*W177.34158207.33bC*W+S*W181.56161205.63cC*S+S*W173.69157205.74aS+C*W181.64163201.64bW+C*S177.61160203.65C+S+W186.61166200.65.10 참게 자료에서 무게(x)만을 예측변수로 하는 로지스틱 회귀모형을 적합하라.a. 표본비율 0.642를 경계값으로 작성된 분할표에서 민감도와 특이도를 구하고 해석하라.의 적합값을 0.642기준으로 나눈다.관심사건일 때 y값을 1로 하면 >0.642인 개수65b. ROC 곡선을 그린 후 곡선 아래의 면적을 구하고 해석하라.proc logistic data=crab ;model y/n= weight/scale=pearson outroc=roc1;output out=out1 xbeta=xb reschi=reschi;run;proc gplot data=ou1;title 'residual plot';plot reschi * xb /haxis=axis1 vaxis=axis2;run;symbol1 i=join v=none c=blue;proc gplot data=roc1;title 'Roc plot';plot _sensit_*_lmspec_=1/vaxis=0 to 1 by .1 cframe=ligr;run;곡선아래의 면적은 0.7343이다.c. Hosmer-Lemeshow 통계량이나 다른 적합도검정법을 사용하여 모형의 적합성을 조사하고 해석하라.가능도비 검정시 p-값이 매우 작으므로 모형이 적합하다고 할 수 있다.Score 검정통계량 검정시 p-값이 매우 작으므로 모형이 적합하다고 할 수 있다.Wald 검정통계량 검정시 p-값이 매우 작으므로 모형이 적합하다고 할 수 있다.proc logistic data=crab ;model y/n= weight/lackfit;run;Hosmer Lemeshow 검정시 p-값이 0.05보다 크므로 모형이 적합하다고 할 수 없다.d. 이 모형과 예측변수에 항을 추가한 모형을 비교하고 해석하라.코드에 weight2=weight**2;를 추가한다.proc logistic data=crab ;model y/n= weight weight2;run;각각의 설명변수에 대해 유의성검정을 한 결과 weight변수는 0.05보다 크므로 귀무가설 을 기각할 수 없다. 따라서 weight변수는 유의하다. Weight2변수는 0.05보다 작으므로 귀무가설 을 기각할 수 있다. 따라서 weight2변수는 유의하지 않다. 결국 weight2를 추가한 모형은 적합하지 않다.e. AIC를 사용하여 (d)에 있는 모형odel y/n= weight;run;모형2의 AIC는 227.759이다.따라서 모형1과 모형2의 AIC는 같다. 즉, weight변수가 추가되더라고 설명력이 크게 증가하지 않는다. 모형식은 간단할수록 좋으므로 모형1을 선택한다.15.17 사형 선고 판결에 대한 〈표 2.10〉의 자료를 참조하라. 두 인종 예측변수를 가지고 로지스틱 모형을 적합하라.a. 모형의 적합도검정을 하고 결과를 해석하라.data death;input victim$ defendant $ yes no;cases=yes+no;datalines;white white 53 414white black 11 37black white 0 16black black 4 139;run;proc logistic data=death descending;class victim defendant;model yes/cases= victim defendant;run;가능도비 검정시 p-값이 매우 작으므로 모형이 적합하다고 할 수 있다.Score 검정통계량 검정시 p-값이 매우 작으므로 모형이 적합하다고 할 수 있다.Wald 검정통계량 검정시 p-값이 매우 작으므로 모형이 적합하다고 할 수 있다.b. Pearson 적합도검정을 하고 결과를 해석하라.Pearson 검정에서 사용하는 카이-제곱 분포에 대한 근사는 데이터수가 크므로 카이-제곱 검정을 할 수 있다.검정시 p-값이 매우 작으므로 귀무가설 기각가능하다. 따라서 victim 설명변수가 유의하다.검정시 p-값이 매우 작으므로 귀무가설 기각가능하다. 따라서 defendant 설명변수가 유의하다.c. 모수를 추정하고 해석하라.최종모형:가해자의 인종이 고정되어있을 때 피해자가 백인일 때 흑인일때에 비해 사형선고를 받을 오즈는 =0.301배 증가한다.피해자의 인종이 고정되어있을 때 가해자가 백인일 때 흑인일때에 비해 사형선고를 받을 오즈는=1.543배 증가한다.15.20 〈표 2.7〉의 임산부의 음주 여부와 신생아의 기형에 대한 자료를 참조하라.a. 알콜 섭취량에 대하여 5 7884 1 1267 1 37;run;proc logistic data=temp descending;class alcohol;model yes/cases= alcohol;run;최종모형:적합도 검정:.현재 고려하고 있는 모형이 적합한지는 가능도비 검정통계량으로 할 수 있다.위의 표를 보면 가능도비 검정결과 p-값이 0.05보다 크므로 귀무가설을 기각할수 없다.따라서 모형이 적합하다고 할 수 있다.b. (a)의 모형에 대해 가능도비 검정을 사용해 독립성을 검정하라(2.5.1절의 추세 연관성검정은 이 모형에 대한 스코어 검정이다).가능도비 검정의 p-값은 0.1846으로 0.05보다 크다. 따라서 귀무가설을 기각할 수 없다.즉, 적합한 모형으로 충분히 자료를 설명할 수 있다.c. 알콜 섭취량이 높은 그룹에서 기형아가 1명만 관찰되었지만 표본크기가 38명에 불과했기 때문에 기형아가 태어날 표본비율은 알콜 섭취가 가장 높은 그룹에서 매우 높다. 이 결과가 이 하나의 관측치에 영향을 받는가? 이 관측치를 제외하여 37 명 중 0명이 관측된 것으로 하여 모형을 다시 적합하고 가능도비 검정법으로 결과를 비교하라(결과가 하나의 관측치에 민감하게 영향을 받으므로 표본수 n이 매우 크더라도 이 관측치에 의해 결론을 내리는 것은 위험하다).7 0 37; (데이터를 다음과 같이 수정하였음.)가능도비 검정통계량: -2(3.7225-6.2020)=4.959 > = 3.84 이므로 귀무가설을 기각할 수 있다. 즉, 결과가 이 하나의 관측치에 영향을 받는다고 할 수있다.d. 알콜 섭취량의 점수를 {1,2,3,4,5} 으로 사용하여 모형을 적합하고 독립성을 검정하라. 이 결과를 (b)와 비교하라(매우 불균형 자료인 경우 점수선택에 따라 결과가 달라질 수 있다).data temp;input alcohol yes no;cases=yes+no;datalines;1 48 170662 38 144643 5 7884 1 1265 1 37;run;최종모형:가능도비 통계량을 이용하여 독립성을 검정한0.18

자연과학| 2021.11.07| 12페이지| 3,000원| 조회(1,034)

회귀분석, 범주형, 예제를 통한 회귀분석, 범주형자료분석및실습

미리보기

닫기
예제를 통한 회귀분석 7장 솔루션 평가D별로예요

표 5.12의 교육비 지출 데이터에 대하여 7.4절의 분석을 수행하여 보아라.변수 X1을 제외한 모든 변수가 유의하지 않다.< 적합값과 표준화잔차 plot> 왼쪽그림을 보면 분산이 증가하는 경향을 보이고 이상치가 보인다.오른쪽 그림에서 이상치를 제외하면 지역별로 분산이 비슷해보인다.먼저 이상치를 찾고 제거한다.6: CT, 30: KY, 32:AL, 44: UT 가 이상치로 판별되었다.이상치를 제거하고 다시 모형의 적합성을 검정한다. 왼쪽그림: 여전히 이분산성을 가진다.오른쪽 그림: 여전히 이분산성을 가진다.이상치를 제거해도 이분산성을 여전히 띄므로 WLS를 적용한다.(1) 북동: 1.199 (2) 북부중앙: 1.468 (3) 남부: 0.438 (4) 서부: 0.934가중최소제곱을 적용한 모형이 적합한지 살펴본다.X3을 제외한 모든 변수가 유의하다. 또한 설명력이 0.7627로 증가하였다. 왼쪽그림: 등분산성을 가진다.오른쪽 그림: 지역별로 분산이 비슷해보인다.표 5.13의 교육비 지출 데이터에 대하여 7.4절의 분석을 수행하여 보아라.OLS 방식을 먼저 수행한다.모든 회귀계수들이 유의하다. 왼쪽그림: 이상치가 있고 분산이 증가하는 패턴을 보인다.오른쪽 그림: 지역3이 분산이 다른 것으로 보인다.먼저 이상치를 찾고 제거한다.이상치가 6:CT, 42: NM, 48:CA, 49:AK로 보인다. 왼쪽: 등분산성을 가진다.오른쪽: 지역3의 분산이 여전히 다르게 보인다. 지역별로 가중치를 각각 다르게 주어야한다.지역별로 가중치를 각각 다음과 같이 주어야한다.(1) 북동: 1.08 (2) 북부중앙: 1.29 (3) 남부: 0.601 (4) 서부: 1.252가중치를 준 모형이 적합한지 검정한다.회귀계수들이 모두 유의하다. 또한 설명력도 0.7939로 증가했다. 왼쪽: 대체적으로 등분산성을 보인다. 오른쪽: 지역별로 분산이 비슷해졌다.따라서 모형식 fit5가 적합한 모형이라고 할 수 있다.표 7.2의 데이터에 대하여 반응변수 Y와 3개의 예측변수 의 회귀모형을 세우고, 지레값, 표준화잔차, Cook의 거리, DFITS를 계산하여라. 또한 각각의 측도에 대하여 적절한그래프를 그려라. 그래프를 통하여 Alaska와 Utah 둘 다 높은 지레점이지만 Alaska만이 영향력 있는 관측개체임을 보여라.1. 지렛값 구하기2. 외적표준화 잔차3. 내적표준화 잔차직접 구하기4. Cook's distance직접구하기5. DIFIS's distance직접 구하기1. Cook's distance graphor 라면 i번째 관측값을 영향력이 있는 관측개체라고 한다. F(4,45,0.5)=0.5451따라서 49: AK 가 영향점이다.2. DFITS라면, i번째 관측값을 영향력있는 관측개체라고 한다.이므로 7: NY, 49: AK가 영향점임을 알 수 있다.3. 외적표준화잔차의 graph이상치는 10: OH 49: AK 이다.4. 지렛값의 graph42: NM, 44: UT는 지렛값이고 10: OH는 이상치 49: AK는 이상치인 동시에 지렛값이다.결론적으로 UT, AK모두 높은 지레점이지만 AK만이 영향력 있는 관측개체라고 할 수 있다.

자연과학| 2021.11.06| 15페이지| 2,500원| 조회(519)

회귀분석, 7장, 예제를 통한 회귀분석

미리보기

닫기
이자론 중심으로 배우는 금융수학 1단원 일부 연습문제

최초 투자금 A(0)에 대하여 n년도에 발생한 이자를 I(n)이라 한다.A(n) – A(0) = 인 것을 보이고, 이것의 의미를 설명하다.P가 원금이라고 할 때 A(n) – A(0) = P(1+in) – P = Pin은 1년도부터 n년도까지의 이자총액을 의미한다.투자원금 1에 대하여 기간 t+s 동안 벌어들인 단리에 의한 이자 총액은 기간 t 동안 벌어들인 이자 총액과 기간 s 동안 벌어들인 이자 총액의 합니다. 그러므로 임의의 시점 t에서 a(t)가 미분가능하다면 ==== 이므로, = (상수) 인 것을 알 수 있다.따라서 = a(t)-a(0)= a(t)-1 = t a(t)= 1+t 이고, a(1)=1+i 이므로 , 즉 a(t)=1+it , t≥0이다. 그러면 투자원금 P에 대한 임의의 시점 t에서 벌어들인 이자 총액은 Pit 와 같다. 위 문제에서는 t=n일 때 까지이므로 위의 증명은 맞다.I(K)=k 일 떄, m차 연도와 n차 연도 사이에 발생한 이자 총액을 구하라. 단, m

자연과학| 2021.10.06| 4페이지| 2,000원| 조회(192)

연습문제, 금융수학, 이자론

미리보기

닫기