엠엠씨씨 스토어

엠엠씨씨

개인인증

팔로워0 팔로우

소개

등록된 소개글이 없습니다.

전문분야 등록된 전문분야가 없습니다.

판매자 정보

학교정보

입력된 정보가 없습니다.

직장정보

입력된 정보가 없습니다.

자격증

입력된 정보가 없습니다.

판매지수

판매중 자료수

18개
전체 판매량

18개
최근 3개월 판매량

0개
자료후기 점수

평균A+
자료문의 응답률

-

전체자료 18개

판매자 표지

2019-1학기 R 컴퓨팅 중간 과제물

R컴퓨팅 과제물학과 / 학번 :이름 :1. 아래의 규칙에 따라 난수를 발생하여 두 개의 벡터를 생성한 뒤 두 벡터를 묶어 vectodat라는 이름의 데이터프레임으로 만드시오.수식> set.seed(367846)> rnorm(10, mean = 0, sd = 1)[1] 0.75376585 -0.04956659 0.45809326 0.12085184 1.92671230 -0.32187414 0.42280972 0.85060499 -0.55676143 -1.13256543> rnorm(10, mean = 0, sd = 1)[1] 2.470911911 0.983089263 -2.060316186 0.518836578 -0.677741199 0.431493590 -0.003730401 -0.543602537 0.033462390 0.293687251> vec1 = c(0.75376585, -0.04956659, 0.45809326, 0.12085184, 1.92671230, -0.32187414, 0.42280972, 0.85060499, -0.55676143, -1.13256543)> vec2 = c(2.470911911,0.983089263, -2.060316186, 0.518836578, -0.677741199, 0.431493590, -0.003730401, -0.543602537, 0.033462390, 0.293687251)> vec1[1] 0.75376585 -0.04956659 0.45809326 0.12085184 1.92671230 -0.32187414 0.42280972 0.85060499 -0.55676143 -1.13256543> vec2[1] 2.470911911 0.983089263 -2.060316186 0.518836578 -0.677741199 0.431493590 -0.003730401 -0.543602537 0.033462390 0.293687251결과> df dfvec1 vec21 0.75376585 2.4709119112 -0.04956659 0.9830892633 0.45809326 -2.0603161864 0.12085184 0.5188365785 1.92671230 -0.6777411996 -0.32187414 0.4314935907 0.42280972 -0.0037304018 0.85060499 -0.5436025379 -0.55676143 0.03346239010 -1.13256543 0.2936872512.(1) read.table() 함수를 이용하되 관측치가 콤마로 구분되어 있음을 감안하여 적절한 옵션으로 웹사이트의 데이터를 직접 읽어들여서, wine 데이터 프레임을 생성하시오. (단, 데이터 이름은 winedat으로 할 것)(2) winedat 데이터의 변수의 개수와 관측치의 개수를 구하시오.수식> setwd("C:/Users/yjrla/Documents")> winedat = read.table(file="wine.data", header=TRUE, sep=",")결과변수 14개, 관찰치 178개(3) wine 데이터 프레임을 write.table() 함수를 이용하여 탭이 구분기호로 사용된 파일을 생성하고 wine.txt라는 이름으로 외부에 저장하시오.수식> setwd("C:/Users/yjrla/Documents")> write.table(winedat, "winedat.txt", row.name = FALSE, quote = FALSE, sep="t")결과(4) read.table() 함수를 이용하여 wine.txt 파일을 R로 읽어들이고, wine_tab 데이터 프레임을 생성하시오. (단, 관측치가 탭으로 구분되어 있음을 감안하여 적절한 옵션을 줄 것)수식> setwd("C:/Users/yjrla/Documents")> wine_tab = read.table("winedat.txt" , header = TRUE, sep="t")> df x x[1] 77 74 48 99 68 89 55 61 97 56> sum=0> for(i in x) { sum = sum + i}> print(sum)[1] 724> average_x = sum / length(x)> print(average_x)[1] 72.4(2) mean() 함수를 이용해서 구한 평균과 비교해 보시오.수식> mean(x)[1] 72.4결과반복문과 mean 함수를 이용해 구한 것과 값이 같다.4. 반복문을 실행하여 아래와 같은 결과를 출력해 보려고 한다.[1] 9 9 9 9 9[1] 7 7 7[1] 5[1] 3 3 3[1] 1 1 1 1 11) for 반복문을 이용하여 위의 결과를 출력해 보시오.수식> x = c(5,3,1,3,5)> x_matrix = matrix(x,norw =1, ncol = 5)> for(i in 1:5) {print (rep(10-(i+i-1), x_matrix[1,i]))}결과[1] 9 9 9 9 9[1] 7 7 7[1] 5[1] 3 3 3[1] 1 1 1 1 12) while 반복문을 이용하여 위의 결과를 출력해 보시오.수식> x = c(5,3,1,3,5)> x_matrix = matrix(x,norw =1, ncol = 5)> i=1> while(i i repeat {+ if(i >5) break+ print( rep(10-(i+i-1), x_matrix[1,i]))+ i a(5,5)5 = 5>> a(4,5)4 < 5>> a(5,4)5 > 4>페이지 PAGE1 / NUMPAGES7

통계·데이터과학과| 2022.06.27| 7페이지| 3,500원| 조회(133)

과제물, R컴퓨팅, vectodat

미리보기

닫기
판매자 표지

2022-1학기 통계패키지 중간과제물

통계패키지 과제물1. 다음을 SPSS 를 이용하여 작성하시오.1) 교재 5장 연습문제 7번연습문제 7번진천선수촌에서 올림픽에 대비하여 연습하고 있는 육상선수 중에서 25명을 뽑아 체격과 50m 달리기 기록을 수집하여 보니 다음과 같았다. 성별은 (1) 남자, (2) 여자이고. 키와 하 체길이는 cm로, 체중은 kg으로, 50m 달리기는 초 단위로 측정한 것이다.문제(1)(1) 체중의 줄기-잎 그림과 히스토그램을 그리고 설명하라.풀이1) Data entry2) 분석 탭 -> 기술통계량 -> 데이터탐색 -> 종속변수 “체중” 입력 -> 줄기 잎 / 히스토그램 클릭 후 실행3) 줄기-잎 그림 및 히스토그램을 통해 빈도, 점수의 집중도, 분포의 모양, 그리고 실제 점수 등 전반적인 자료의 변화 추이를 쉽게 알 수 있다. 60-64 / 65-70 이 많은 분포를 가지고 있으며, 80 후반 및 90 초반의 값은 없으나 90 후반의 값은 1개가 존재함을 알 수 있다.문제(2)(2) 남자와 여자별로 키, 하체길이, 체중, 50m 달리기의 상자그림을 그리고 비교하라.풀이1) 분석 탭 -> 기술통계량 -> 데이터탐색 -> 종속변수 각각 “키” / “하체길이” / “체중” / “달리기” 입력 -> 요인 “성별” 입력 -> 실행성별에 따른 키성별에 따른 하체길이성별에 다른 체중성별에 따른 50M 달리기** 성별 1: 남자 / 성별 2: 여자2) 상자그림(box plot)은 주로 분포의 대칭성, 분포의 양 꼬리 부분의 집중도, 대부분의 관측값과 동떨어진 값을 갖는 관측인 특이점의 유무 등을 탐색할 때 많이 사용한다. 상자그림을 통해 제1사분위수와 3사분위수, 사분위범위, 점수분포의 대칭성, 또는 비대칭성을 찾을 수 있다. 특이점 유무를 판정할 수도 있는데 이같이 하려면 어느 지 점부터 특이점 (outlier)이라 판정할 수 있는지 기준이 되는 경계점을 결정해야 한다. 특이점은 대부분 점수와 동떨어진 값을 갖는 관측으로 특이점의 값은 나머지 점수에 비하여 상대적으로 아주 작거나 크다.[성별에 따른 키] 상자그림을 통해 남자의 키가 더 크고 넓게 분포하며, [성별에 따른 하체그림] 상자그림을 통해 남자의 하체길이가 더 크고 넓게 분포함을 알 수 있다. [성별에 따른 체중] 상자그림을 통해 남자의 체중이 더 크고 넓게 분포하며, [성별에 따른 50M 달리기] 상자그림을 통해 남자의 달리기 속도가 더 빠름을 알 수 있다.2) 교재 6장 연습문제 3번, 4번연습문제 3번어떤 화학약품의 제조에 상표가 다른 두 종류의 원료가 사용되고 있다. 각 원료에서 주성 분 A의 함량은 다음과 같다. 단, 함량은 정규분포를 따른다고 가정한다. 이 두 원료의 주성 분 A의 함량이 다른지를 분석하라.풀이1) Data entry & 독립 T 검정 실시2) 독립 T 검정 결과3) 본 독립 T 검정에서 귀무가설은 “상표 1과 상표 2의 주 성분 A의 함량이 같다”이며, 대립가설은 “상표 1과 상표 2의 주 성분 A의 함량이 다르다” 이다. 위의 결과에서 ‘레벤(Levene)의 등분산 검정’은 두 집단의 분산이 동일한가를 검정하기 위한 결과이다. 유의확률이 0.844로 값이 크므로 두 집단의 분산이 동일하다는 가정을 기각할 수 없다는 것을 알 수 있다. 따라서 분산이 동일하다는 가설을 받아들이고, ‘등분산을 가정함’의 결과를 이용한다. 검정통계량 t 값은 1.676이며, 이에 대한 유의확률은 0.055로 유의수준 0.05보다 크므로 귀무가설을 기각하지 못한다.연습문제 4번특정 피임약이 사용자의 혈압을 저하시키는지 조사하고자 한다. 이를 위해 부인 15명을 대 상으로 평상시 혈압을 측정한 뒤, 이들에게 이 피임약을 일정 기간 복용하게 한 후 이들의 혈압을 다시 측정한 결과를 기록했다. 얻어진 데이터는 다음과 같다. 피임약 복용이 혈압에 영향을 주는지 분석하라.풀이1) Data entry & 대응표본 T 검정 실시2) 대응표본 T 검정 결과3) 본 대응표본 T 검정에서 귀무가설은 “피임약 복용 전,후 혈압의 차이가 없다.” 이며 대립가설은 “피임약 복용 전,후 혈압에 영향을 준다.” 이다. 해당 결과에서 검정통계량 t 값이 3.105 이며, 유의확률이 0.004로 유의수준 0.05보다 작으므로 차이가 없다는 귀무가설을 기각한다.2. 다음을 SAS 를 이용하여 작성하시오.1) 교재 8장 연습문제 5번, 6번연습문제 5번다음 데이터에서 X는 콩 10개의 수분 함유량을 나타내고, Y는 콩의 강도(strength)를 나타 낸다.연습문제5-(1)(1) X에 대한 Y의 회귀식을 구하라.풀이1) Data entry2) 수분함유량 X 는 독립변수, 콩의 강도(strength) Y는 종속변수3) 위 사진의 우측 결과 값에 따라, 기울기는 -0.62421 이며, 절편은 18.04320 인 회귀식을 구할 수 있다. Y = 18.04320-0.62421X연습문제5-(2)(2) 잔차분석을 하라.풀이1) 위에 대한 잔차 도표는 다음과 같다.2) 위 도표에서 볼 수 있는 것과 같이, 직사각형 내에 관측자료가 고르게 분포하는 형태를 지니고 있어 선형모형을 가지고 있음을 알 수 있다. 또한, 해당 모형에서는 분산이 X와 관계없음을 가정하는데, 위의 도표와 같이 오차의 분산이 X와 관련이 없어 단순선형회귀 모형으로 판단된다.연습문제 6번다음 데이터에서 변수 X는 매년 4월 1일에 관측한 눈 속에 포함된 수분 함유량(단위 : %). Y는 그 해 4월부터 7월까지의 용수량(water yield, 단위 : t)이다. 적절한 회귀분석을 하라.풀이1) Data entry2) 수분함유량 X 는 독립변수, 용수량 Y는 종속변수3) 회귀식 : Y=0.72538+0.49808X위의 출력값에서 회귀계수의 유의도에 대한 유의확률값（‘Prob〉|T|’）을 살펴보면 X는 유의확률이 0.05보다 작기 때문에 통계적으로 유의하다고 할 수 있다. 또한 회귀식에 따라 양의 상관관계를 가지며, 함유량 1%에 0.49808t의 용수량이 증가함을 알 수 있다. 또한 아래의 사진으로 잔차를 확인하였으며 직사각형 내에 한쪽으로 치우쳐 있거나, 휘어지거나, 한쪽 방향으로 벌어지는 형태를 하고 있지 않고 현재관측자료가 고르게 분포하는 형태를 지니고 있어 선형모형을 가지고 있음을 알 수 있다.2) 교재 9장 연습문제 2번연습문제 2번호소 성분의 비료가 호소 함량이 증가함에 따라 토마토 모종 포기의 성장에 어떤 영향을 주는지 실험연구를 하여 다음 자료를 얻었다. 분산분석을 하여 효소 함량에 따라 토마토 모종 성장에 차이가 나는지 검정하라.풀이1) Data entry2) ANOVA 프로시저로 분산분석하는 프로그램 작성3) 결과값4) 분산분석표에서 오른쪽 상단의 ‘Pr>F’ 밑에 나온 값이 바로 유의확률이며, 현재 이 값이 0.0006로 일반적 인 유의수준 0.05보다도 아주 작으므로 ‘효소의 함량이 증가함에 따라 토마토 모종 포기의 성장은 같지 않다’고 결론 내린다. 그리고 ‘RSquare’는 결정계수로 0.751333으로 나와 있다. 즉, 현재 우리가 가정한 일원분산분석 모형이 토마토 성장 패턴을 약 75% 정도 설명하고 있는 셈이다.페이지 PAGE1 / NUMPAGES1

통계·데이터과학과| 2022.06.27| 9페이지| 4,000원| 조회(157)

방통대, 중간과제물, 2022-1학기 통계패키지 중간과제물

미리보기

닫기
판매자 표지

2022-1학기 통계패키지 기말과제물

통계패키지 과제물1. 다음을 SAS 를 이용하여 작성하시오.1) 교재 5장 연습문제(p.208) 2, 10번연습문제 2번다음은 상장된 금융사 중 외국기업(F)과 내국기업(K)의 주가이다. 외국기업과 내국기업별로 기술통계량을 구하고 줄기-잎 그림, 상자그림을 그려서 비교・분석하라.풀이SAS CODE결과외국기업은 관측값 수 11, 최솟값 111, 최댓값 235, 평균 154.73, 표준편차 32.45, 범위 124, 사범위수 범위 24, 제1사분위수 120, 제2사분위수 150, 제3사분위수 163이며, 국내기업은 관측값 수 13, 최솟값 102, 최댓값 173, 평균 144.62, 표준편차 22.15, 제1사분위수 129, 제2사분위수 145, 제3사분위수 165, 범위 71, 사분위수 범위 36으로 보인다.줄기-잎 그림에서 140점대 빈도가 가장 많고 그 좌우에 데이터가 집중되어 있으나,이상치로 보이는 값으로 225가 보인다. 이상치는 상자그림을 통해 명확하게 확인된다. 박스의 폭을 통해 외국기업이 국내기업보다 좀더 골고루 분포되어 있는 것으로 보인다.연습문제 10번부모와 자식 간 정치 성향의 관련성에 관한 미국의 연구자료이다. 부모의 정치활동 수준이 활동적인 경우와 비활동적인 경우 각각에 대해서 분할표를 만든 다음 카이제곱 검정을 시행하라. 어떤 결론 을 내릴 수 있는가? 민주당은 진보적, 공화당은 보수적이다.풀이SAS CODE / 카이제곱 검정결과귀무가설: 부모의 정당과 자식의 정당은 서로 독립이다.부모의 정치활동이 active / inactive 모두 , 유의확률이 0.00001로 유의수준 0.05보다 매우 작아 부모의 정당과 자식의 정당은 서로 독립이라는 귀무가설은 기각이다. 따라서, 부모의 활동 여부와 관계없이, 부모 자식의 정당은 매우 밀접한 관련성이 있다고 할 것이다.2) 교재 6장 연습문제(p.235) 3번, 5번연습문제 3번어떤 화학약품의 제조에 상표가 다른 두 종류의 원료가 사용되고 있다. 각 원료에서 주성분 A의 함량은 다음과 같다. 단, 함량은 정규분포를 따른다고 가정한다. 이 두 원료의 주성분 A의 함량이 다른 지를 분석하라.풀이SAS CODE / T-T test결과검정 결과의 quality of variances에서 Pr > F은 유의확률을 의미하며, 0.5483으로 유의수준 0.05보다 크다. 이에, 두 모집단의 분산은 동일하다.이번 검정에서 귀무가설은 “상표1과 상표2의 주성분 A의 함량은 같다”이며, 3번째 표의 Method에서 Pooled 행으로 검정 결과를 판단하며, t검정통계량 값은 1.68이고 유의확률은 0.1101이다. 유의확률 0.1101은 0.05보다 크므로 귀무가설을 기각하지 못하기 때문에, 상표1과 상표2의 주성분 A의 함량은 유의한 차이가 없다.연습문제 5번고등학교 육상선수에게 체중감량을 시키면 달리기에 어떤 변화가 일어나는지 조사하기 위하여, 어 떤 고등학교 육상선수 10명에게 감량훈련(2~4kg 정도)을 시킨 후 100m 달리기를 실시하여 다음의 데이 터를 얻었다. 감량 전과 후에 달리기 속도에 차이가 있는지 대응·비교하라.풀이SAS CODE / Paired T-T test결과이번 검정에서 귀무가설은 “감량 전과 감량 후의 달리기 속도가 같다”이며, t검정통계량의 값이 2.38이고 유의확률이 0.0415로 0.05보다 크므로 유의수준 0.05에서 귀무가설을 기각한다. 감량 전과 감량 후의 달기기 속도에 차이가 있다.3) 교재 7장 연습문제(p.277) 6번연습문제 6번다음은 13개 시중은행에 대한 편리성, 신속성, 친절, 능률, 쾌적, 자동화 등의 점수를 나타내고 있는 자료이다.각 변수의 히스토그램을 그리고 설명하라.산점도 행렬 및 상관계수 행렬을 구하고, 변수들의 관계를 설명하라.풀이SAS CODE / 히스토그램결과히스토그램에서는 6개 변수가 있으며, 각 데이터 개수는 13개이다. Kindness를 제외하고 봉우리는 하나만 존재하고, 데이터가 좌우대칭을 이루지는 않으며, 모든 히스토그램에서 이상치는 보이지 않는다.SAS CODE / 산점도 행렬 및 상관계수 행렬결과산점도 행렬을 보면 상관관계가 명확히 보이지 않는다. 다만, 상관계수 행렬을 통 conveniences는 accuracy 사이에 0.67, conveniences와 efficiency는 0.56로 다른 변수에 비해 상관관계를 가지고 있다. accuracy는 automatic 사이에 0.42로 상관관계를 보여준다. pleasant는 automatic 사이에 0.52로 상관관계가 있다. 산점도 행렬에서는 대각선에 각 변수의 히스토그램 및 그래프를 확인할 수 있다.2. 다음을 SPSS 를 이용하여 작성하시오. / 실습 cloud pc 이용하여 과제 진행함.1) 교재 7장 연습문제(p.277) 3번연습문제 3번다음은 어떤 공정에서 생산되는 기계부품의 길이(mm)를 측정한 값이다. 줄기-잎 그림, 히스토그램, 상자그림을 그리고 설명하라.풀이Data entry 이후 ‘분석’ -> ‘기술통계량’ -> ‘데이터 탐색’ 을 클릭하여 줄기-잎 그림, 히스토그램, 상자그림을 작성한다.줄기-잎 그림위의 그림에서 구매빈도, 줄기, 잎의 순서로 나타나있다. 줄기의 단위는 0.1 임을 주의하여 해석해야 한다. 줄기 159 데이터의 빈도가 15 로 최다 빈도이며, 줄기 160에서 11의 빈도를 보인다. 최솟값은 15.41이고 최댓값은 16.32 임을 알 수 있다.히스토그램줄기-잎 그림과 같은 데이터의 분포를 히스토그램에서 확인이 가능하다. 다만, 명확한값을 보기는 어려우나 히스트그램은 데이터의 분포 특성을 시각적 보여준다. 분포 및 대칭 모두 중기-잎 그림과 동일하여 우측의 값을 통해 평균 15.97 / 표준편차 0.171 임을 알 수 있다.상자그림상자그림은 줄기-잎 그림, 히스토그램과 다르게 사분위수 범위를 확인할 수 있고, 최소값과 최대값을 확인할 수 있다. 상자 그림에서 1사분위수와 2사분위수의 폭이 3사분위수와 2사분위수의 폭보다 좁아 값이 1사분위수와 2사분위수 사이에 상대적으로 더 집중되어 있음을 알 수 있다. 또한, 15.40이 특이점으로 안울타리 밖에 있음을 확인할 수 있다.2) 교재 8장 연습문제(p.305) 1번, 8번연습문제 1번다음은 동물 25마리로부터 얻은 두 변수에 관한 자료이다. 산점도를 그리고 상관분석과 회귀분석을 하라.풀이Data entry 이후 ‘그래프’->’레거시 대화상자’->’산점도/점도표’->’단순 산점도’->’정의’ 를 클릭하여 산점도를 작성한다.‘분석’ -> ‘상관분석’ -> ‘이변량 상관’‘분석’ -> ‘회귀분석’ -> ‘선형’회귀 분석 결과 F 검정통계량은 57.168이고, 유의확률은 0.000으로 유의수준 0.05보다 작은 값으로 귀무가설을 기각하여 주어진 회귀식은 유의하다. 결정계수는 0.713으로 회귀모형이 적합함을 알 수 있다. 또한 결과를 통해 절편은 183.24 기울기는 1.788 으로 회귀식을 구할 수 있다.P-P 도표와, 잔차의 산점도는 정규확률로 그려진 그림으로 정규분포 가정을 벗어나지 않는다. 또한, 산점도가 직선상 가깝게 위치하고 있으며, 잔차가 일정범위 내 있으므로 추정된 회귀식은 단순선형회귀으로 오차의 가정을 만족함을 알 수 있다.연습문제 8번x, y 변수 간에 다음의 데이터를 얻었다. 두 변수 간의 산점도를 그리고 적합한 회귀모형을 추정하라.풀이Data entry 이후 ‘그래프’->’레거시 대화상자’->’산점도/점도표’->’단순 산점도’->’정의’ 를 클릭하여 산점도를 작성한다.회귀분석F 검정통계량 29.184에 대하여 유의확률이 0.000보다 작아 두 변수의 상관관계는 유의하다. 또한 결정계수는 0.863이고, 결정계수는 0.745이다. 회귀계수는 y절편 15.742, 기울기 -0.986인 회귀선을 알 수 있다.3) 교재 9장 연습문제(p.339) 1번, 6번연습문제 1번유아들을 대상으로 세 가지 읽는 방법을 비교·실험하여 다음과 같은 독서평가 점수자료를 얻었다. 세 방법에 통계적으로 유의한 차이가 있는지 검정하라.풀이Data entry 이후 ‘분석’->’평균비교’->’일원배치 분산분석’먼저, 위에서 독서방법 “B” -> 1, “D” -> 2, “S” -> 3으로 변환해서 분석을 진행하였다. 위의 분산의 동질성에 관한 검정결과를 보면, 유의확률이 모두 유의수준 0.05보다 크므로 ‘각 그룹별 분산이 같다’는 귀무가설을 채택한다. ANOVA에서 F 검정통계량 이 0.779로 유의확률은 0.482이나, 유의수준인 0.05보다 크므로 그룹별 평균 차이가있다는 귀무가설을 기각한다. 또한, 유의확률이 모두 0.05보다 크므로 각 그룹별 차이가 있다는 귀무가설을 기각하며, Scheffe 방법과 LSD에서의 결과에서도 모두 유의수준인 0.05보다 크므로 독서방법에 의한 차이가 있다고 할 수 없다.연습문제 6번어떤 기계의 소음을 작게 하려고 모터(motor)의 베어링 부분에 대하여 조립 후의 볼베어링의 유격(play)을 3수준, 조립 후의 진동을 3수준으로 바꾸어 3회 반복하여 3X3X3=27(회)의 실험을 랜덤하게 행하고, 소음계로 소음을 측정한 결과가 아래와 같다.풀이Data entry 이후 ‘분석’->’일반선형모형’->’일변량’결과에서 분산분석표을 보면 유격수준 F 검정통계량 9.41, 진동수준의 F 검정통계량 27.48이며 유의확률은 모두 0.000으로 유의수준인 0.05보다 작다. 따라서 모두 유의하다고 볼 수 있다. 그리고 프로파일 도표를 통해 진동수준 40에서 유격수준 0인 경우, 소음의 추정주변 평균이 두 번째로 큰 것을 알 수 있다.페이지 PAGE1 / NUMPAGES1

학교| 2022.06.27| 19페이지| 3,000원| 조회(162)

연습문제, 문제풀이, 2022-1학기 통계패키지 기말과제물

미리보기

닫기
판매자 표지

2022-1학기 회귀모형 대체과제물

회귀분석 과제물1. 교재 1장 연습문제 1번 P.39 (1) ~ (6)연습문제 1번어떤 큰 공장에서 동일한 기계들의 정비기록에 관한 표본자료를 취하였다. 이는 기계의 사용연도(age of machines)와 정비비용(maintenance cost) 간에 어떤 관계가 있는가를 밝혀내기 위한 것으로 그 자료는 다음과 같다(표본의 크기 n=14)문제(1)(1) 이 데이터의 산점도를 그려라풀이1) R script> x y plot(x,y,xlab="사용연도(단위:년)", ylab= "정비비용(단위:1,000원", psh=16)> title("사용연도와 정비비용 산점도")2) 산점도문제(2)(2) 최소제곱법에 의한 회귀직선을 적합시켜라풀이1) R script회귀계수의 추정값은 Coefficients： Estimate에서 볼 수 있으며, 추정된 회귀식은 y=29.107+13.637x이다.2) 회귀직선을 그리기 위해 abline 함수 이용> abline(lm(y~x))문제(3)(3) 추정치의 표준오차 를 구하라.풀이위의 (2) 결과에서 ‘Residual standard error: 29.11 on 12 degrees of freedom’를 통해 29.11 임을 알 수 있다.문제(4)(4) 결정계수와 상관계수를 구하라.풀이위의 (2) 결과에서 결정계수는 Muliple R-squared: 0.6098 임을 알 수 있다.상관계수는 결정계수의 제곱근으로 cor 를 이용하여 상관계수를 구한다.문제(5)(5) 분산분석표를 작성하고 회귀직선의 유의여부를 검정하라(유의수준 a=0.05 사용).풀이1) R script2) 분산분석표요인자유도제곱합평균제곱회귀11588715887.218.7530.0009779잔차1210166847.2계1326,053유의확률 은 0.0009779로 유의수준 0.05보다 작으므로 추정된 회귀식은 유의함을 알 수 있다.문제(6)(6) 사용연도가 4년인 기계의 평균정비비용은 어느 정도인가 추정하라.풀이위의 (2) 결과에서 추정된 회귀식인 ‘y=29.107+13.637x’ 에서 연도(x) 에 4를 대입하면 83.655이며, 비용은 1,000원 단위이므로 83,655원임을 알 수 있다.2. 교재 1장 연습문제 2번 P.39 (1) ~ (3)연습문제 2번자동차의 무게가 무거우면 이를 움직이는 데 더 많은 연료가 소모된다는 것은 알려진 사실이다. 자동차의 무게와 자동차를 1km 움직이는 데 필요한 에너지량과의 함수관계를 정확히 판단하기 위하여 A자동차회사는 다음의 자료를 실험을 통하여 얻었다. 실험비용이 많이 드는 관계로 아홉 번만 실험하였는데 그 자료는 다음과 같다.문제(1)(1) x에 대한 y의 회귀직선을 최소제곱법에 의하여 구하라. 데이터의 산점도를 그리고, 구한 회귀직선을 산점도 위에 그려 넣어라.풀이1) y의 회귀직선을 최소제곱법에 의하여 구하라위의 내용에 따라, y=-0.1157+2.1626x 임을 알 수 있다.2) 데이터의 산점도를 그리고, 구한 회귀직선을 산점도 위에 그려 넣어라.문제(2)(2) 분산분석표를 작성하고 회귀직선의 유의 여부를 검정하라(유의수준 a=0.05 사용)풀이1) R script2) 분산분석표요인자유도제곱합평균제곱회귀115.246215.246141.166.798e-06잔차80.75610.108계916.0023유의확률 은 6.798e-06로 유의수준 0.05보다 작으므로 추정된 회귀식은 유의함을 알 수 있다.문제(3)(3) 무게가 3,000kg이 되는 차량의 에너지 소모량은 어느 정도일까를 예측하라.풀이위의 (2) 결과에서 추정된 회귀식인 ‘y=-0.1157+2.1626x’ 에서 무게(x) 에 3을 대입하면 6.3721이며, 에너지 소모량은 1,000Btu 단위이므로 6.3721Btu임을 알 수 있다.3. 교재 2장 연습문제 2번 P.86 (1) ~ (7)연습문제 2번어떤 공장에서 나오는 제품의 강도(kg/cm2)가 그 공정의 온도와 압력에 어떠한 영향을 받는가를 조사하기 위하여 다음의 데이터를 얻었다.문제(1)(1) 선형회귀모형, 이 성립한다고 가정하고 데이터로부터 회귀모형을 추정하라.풀이1) R script> x1 x2 y install.packages("lm.beta")> library(lm.beta)> lm.beta(factory)Im.beta를 설치하고, Im.beta 함수를 이용하여 표준화된 중회귀방정식은 아래와 같다.= -0.05499279Z1 + 0.88251635Z2페이지 PAGE1 / NUMPAGES1

경영/경제| 2022.06.27| 7페이지| 3,500원| 조회(135)

문제, 회귀모형, 풀이

미리보기

닫기
판매자 표지

2022-1학기 다변량분석 대체과제물

다변량분석 과제물1. 교재 1장 연습문제 4번 P.38 (1) ~ (3)연습문제 1장 4번다음은 R에 내장된 “Longley” 데이터이다.문제(1)(1) R을 이용하여 산점도행렬, 별그림, 얼굴그림을 그리고 해석하시오.풀이1) R script (산점도행렬)Population과 Year이 0.994로 가장 높으며 다른 변수들과 양의 상관관계를 보여준다.2) R script (별그림)별그림은 별모양의 점을 각각의 변수에 대응되도록 한 뒤 각 변수값에 비례하도록 반경(radius)을 나타내도록 하여 관찰값을 표시한 것이다. 연도가 증가함에 따라 관측값의 크기가 커짐을 알 수 있다.3) R script (얼굴그림)얼굴그림은 별그림과 유사하며 별모양 대신 얼굴의 각 특성을 변수와 대응시켜 관찰값을 표시한 것이다. 위의 script 에서와 같이 대응된 특성과 변수를 확인할 수 있으나 별그림과 마찬가지로 정확한 관계를 확인하긴 어렵지만 연도가 증가함에 따라 관측값의 크기가 커짐을 알 수 있다.문제(2)(2) “longley” 데이터를 CSV 파일로 저장하시오.풀이문제(3)(3) 파이썬을 이용하여 데이터를 읽고, 산점도행렬을 그리시오. 출력결과를 R과 비교하여 설명하시오.풀이1) scriptR과 달리 python 에는 각 분포에 대해 산점도를 그려 차이를 보여준다.2. 교재 2장 연습문제 1번 P.75 (1) ~ (2)연습문제 2장 1번R “ade4” 패키지에 있는 “deug” 자료를 이용하여 주성분분석을 실시하고자 한다. 다음에 답하시오문제(1)(1) R을 이용하여 다음과 같이 주성분분석을 실시하고, 분석하시오.풀이① 9개 변수들을 기술통계량으로 요약하시오.② 9개 변수들 사이의 상관계수행렬을 구하시오.③ 고윳값을 구하고 그 고윳값이 확보하는 정보의 양 및 누적정보량을 구하시오.총 9개의 주성분의 표준편차를 알 수 있으며, summary 함수를 통해 cumulative proportion 인 누적정보량을 알 수 있다.④ 1보다 큰 고윳값의 수와 그 고윳값들이 확보하는 누적정보의 양을 구하시오.③의 결과에서 첫번째 주성분이 약 34.4%, 두번째 주성분이 약 15.1%, 세번째 주성분이 약 11.5% 분산비율이며 3개의 주성분이 총 변이의 61%의 정보를 가지고 있음을 알 수 있다. 각 주성분의 표준편차를 제곱하여 고윳값을 얻을 수 있으며, 주성분의 분산은 위의 결과 값과 같으며 1보다 큰 유효한 주성분은 3개임을 알 수 있다.⑤ Scree plot을 그리고 해석하시오.고유값이 1보다 큰 주성분이 3개(comp.1, comp.2, comp.3) 임을 알 수 있다.⑥ 위의 결과를 이용하여 주성분을 구하시오.⑦ biplot을 그려 보고 주성분의 특징을 정리하시오.biplot에서 Analysis, Informatic, Proba, Algebra, Option1의 방향이 위쪽이며, Sport, Option2, Economy, English가 방향이 아래쪽으로 위치해있다. 가까운 거리 및 방향이 비슷하면 변수들의 상관성이 높고, 각 개체가 특정 변수에 가깝게 위치할수록 그 개체는 해당 변수와 관련이 높다.문제(2)(2) 데이터를 CSV 파일로 저장한 후, 파이썬을 이용하여 주성분분석을 실시하고, R의 결과와 비교하시오.풀이# CSV 파일 저장 .# 기술통계량 구하기 - 소수점 이하 2자리 반올림 표시# StandardScaler 클래스를 통한 변수 표준화# 초기 주성분 분석# 주성분 분석 – 주성분 수 3개 추출# 주성분분산, 주성분분산 비율, 주성분계수, 주성분점수# R의 결과두개의 결과를 비교하였을 때, comp.1 / comp.2 에서의 결과값의 양과 음의 부호가 다름을 알 수 있으며, comp.3 는 동일하다.3. 교재 3장 연습문제 2번 P.122 (1) ~ (4)연습문제 2번다음 자료는 300명의 대학생에게 biology(BIO), geology(GEO), chemistry(CHEM), algebra(ALG), calculus(CALC), statistics(STAT) 6개의 과목에 대해 선호도를 조사한 결과이 다. 다음의 자료는 “https://professor.knou.ac.kr/sskim”의 자료실에서 “favoritesubject.csv” 를 다운받아 사용할 수 있다. R과 파이썬을 각각 이용하여 인자분석을 실행하고 물음에 답하시오.문제(1)(1) 유의한 인자의 수와 그 인자들이 확보하는 정보의 양은 얼마인가?풀이1) R script> library(psych)> library(GPArotation)고유근(values)을 살펴보면 두번째 인자까지 고유근이 1 이상인 것을 알 수 있다. 또한 그림에서는 3번째 인자부터 그래프의 기울기가 완만해지는 것을 볼 수 있어 유효한 인자의 수는 2개이다.2) python script문제(2)(2) 인자부하행렬을 구하고 varimax와 promax 방법을 이용하여 인자회전을 실시하고 결과를 비교하시오.풀이1) R script(varimax / varimax(without “subject”))varimax 인자회전 후 결과이다. “Uniquenesses”는 고유분수Runiqueness or specific variance)을 나타낸다. “1-고유분산”이 공통성(communality or common variance)이 되므로 각 변수의 공통성을 계산할 수 있다. “Subject” 공통성이 0.012의 매우 작은 값을 가져 제외하는 것이 타당하다. 우측에 있는 결과 값이 “subject” 를 제외한 값이다.2) R script(promax/ promax without “subject”))위의 두가지 R 결과를 통해 두개의 차이가 없음을 알 수 있다.3) python script(varimax)4) python script(promax)문제(3)(3) 인자들에게 적합한 이름은?풀이Factor 1에서 인자는 Biology(BIO), Geology(GEO), Chemistry(CHEM)의 비중이 크고, Factor 2에서 인자는 Algebra(ALG), Calculus(CALC), Statistics(STAT) 비중이 크며 각각 Academic, Math 로 이름 붙일 수 있다.문제(4)(4) 인자분석을 종합적으로 정리하라풀이위의 분석 결과를 통해 2개의 인자가 유의하며, 인자분석결과 유의한 인자는 2개이며 총 66.5%의 설명력을 가진다. (Factor1: 35.9%, Factor2: 30.9%) 그 중 첫번째 인자는 Biology(BIO), Geology(GEO), Chemistry(CHEM)의 비중이 큰 인자로 “Academic”으로, 두번째 인자는 Algebra(ALG), Calculus(CALC), Statistics(STAT) 으로 “Math”로 명명할 수 있다.페이지 PAGE1 / NUMPAGES1

공학/기술| 2022.06.27| 11페이지| 3,500원| 조회(191)

연습문제, 다변량분석, 문제풀이과정

미리보기

닫기