2022학년도 1학기 엑셀데이터분석 출석수업대체(과제물)(온라인 제출용)1.교재2장 관련 내용(12점)(1) 2022년 1월 3일부터 3월 29일까지의 종합주가지수와 대미환율 자료를 각각 입력하여 꺾은선 그래프로 나타내고, 각 자료의 전체적인 경향과 두 자료 사이의 연관성을 설명하시오.(참고: http://freesis.kofia.or.kr/http://ecos.bok.or.kr/)2.교재3장 관련 내용(6점)(1) 연습문제 13번(2) 연습문제 14번3.교재4장 관련 내용(6점)(1) 연습문제 15번(2) 연습문제 19번(3) 연습문제 20번4.교재5장 관련 내용(6점)(1) 연습문제 15번(2) 연습문제 17번(3) 연습문제 18번1. 교재2장 관련 내용(12점)(1) 2022년 1월 3일부터 3월 29일까지의 종합주가지수와 대미환율 자료를 각각 입력하여 꺾은선 그래프로 나타내고, 각 자료의 전체적인 경향과 두 자료 사이의 연관성을 설명하시오.한국은행 경제통계시스템(http://ecos.bok.or.kr/)에서 추출한 데이터를 통해 작성한 종합 주가지수 및 대미환율(종가 기준) 그래프는 아래와 같다.(1)-1. 종합주가지수 경향2022년 개장 이래 전반적으로 하락 추세를 보였다. 2,900대를 유지하던 지수는 01월 17일부로 급하락세를 겪으며, 01월 27일에는 2,600 초반대까지 내려왔다. 이 기점으로 어느 정도 회복세를 보이며 2,600~2,700 수준에서 큰 변동 없이 유지 되었다.(1)-2. 대미환율 경향(종가 기준)전체적으로 꾸준한 상승세를 보인다. 01월부터 03월 초까지는 대체로 10원 미만 소폭의 등하락세가 반복되었으나 꾸준히 상승해 왔다. 03월 04일에는 1,204.60원에서 1,214.20원으로 10원 가까이 환율이 상승하며 급상승세를 보였다. 이러한 상승세는 지속되어 03월 15일 1242.80원으로 최고조에 올랐으나, 이후 다시 가파른 하락세를 보였고 이후 1,210원 후반을 유지하였다.(1)-3. 종합주가지수와 대미환율의 연관성환율 하락 시 주가지수는 상승하며, 반대로 환율 상승 시 주가지수는 하락하는 경향을 보인다. 뚜렷한 대칭 관계는 아니지만, 추세를 보았을 때 대미 환율과 종합 주가 지수는 반대의 경향을 보이고 있다는 것을 두 통계 자료를 활용하여 엑셀 프로그램을 통하여 작성한 그래프를 통해 확인할 수 있다.2. 교재3장 관련 내용(6점)(1) 연습문제 13번3.4절의 [예제 3.1]에서 디스켓을 판매하면서 얻는 이익률을 20%로 인상하려면 판매가는 얼마로 해야 하는가?교재 113 페이지의 [그림 3-19] 데이터를 워크시트에 입력 후, [데이터 도구] → [가상 분석] → [목표값 찾기]를 선택 후, 수식 셀에 이익률을 나타내는 B10을 선택하고, 찾는 값에는 변경하고자 하는 이익률인 20%를 작성한다. 값을 바꿀 셀은 이익률을 20%로 올렸을 때의 판매가를 구하는 것이므로, 판매가를 나타내는 B1을 선택하고 확인을 누른다. 이 결과 판매가를 나타내는 B1셀은 406으로 변경되어, 이익률을 20%로 올리고자 할 때의 판매가는 406원으로 설정해야한다는 것을 알 수 있다.이렇게 엑셀의 [목표값 찾기] 기능을 통해 특정 수치를 변경하였을 때 수식과 관계가 있는 특정 값을 편리하게 구할 수 있다.(2) 연습문제 14번어느 가구 제조공장에서는 1,500board feet와 1,200시간의 노동시간을 활용하여 식탁용 의자, 식탁, 책장을 생산하고 있다. 식탁용 의자를 만들기 위해서는 5board feet의 목재와 10시간의 노동시간을 필요로 하고, 생산된 식탁용 의자 1개에서 얻는 이익은 45,000원이다. 식탁은 20board feet의 목재와 15시간의 노동시간을 필요로하고 생산된 식탁 1개에서 얻는 이익은 80,000원이다. 또한 책장은 10board feet의 목재와 12시간의 노동시간을 필요로 하고, 생산된 책장 1개에서 얻는 이익은 60,000원이다. 식탁용 의자, 식탁, 책장을 각각 얼마씩 생산하는 것이 이익을 최대로 할 것인가?총이익을 최대로 하는 것이 이 문제의 목적이기 때문에, [목표 설정]은 총이익의 수식이 있는 $B$13이 된다. 최대 값을 구하는 것이기 때문에 [대상]은 당연히 최대값으로 설정한다. [변수 셀 변경]은 생산한 식탁용 의자, 식탁, 책장의 수가 지정된 셀인 $B$6:$B$8이다.[제한 조건에 종속] 오른쪽 메뉴의 [추가]를 클릭하여 조건을 입력할 수 있다. 문제의 해설에 나타난 제약식을 수식에 맞추어 제한 조건에 추가해주면 된다. 여기서 주의할 점은 식탁, 의자, 책장의 단위는 1개 이므로, 꼭 제한 조건에 [정수]를 추가해주어야 원하는 값이 설정될 수 있다.해찾기 기능을 활용해 최대 이익의 조건을 구한 결과, 식탁용 의자 0개, 식탁 67개, 책장 16개를 생산하는 경우, 6,320,000원으로 최대의 이익을 거둘 수 있다.3. 교재4장 관련 내용(6점)(1) 연습문제 15번5개 중 하나를 택하는 선다형 문제가 20문항 있는 시험에서 랜덤하게 답을 써넣는 경우에 다음 물음에 답하시오.엑셀에서의 이항분포 확률계산 함수는 아래와 같다.=BINOMDIST(number_s, trials, probability_s, cumulative)여기서 number_s는 성공할 횟수, trials는 독립 시행횟수, probability_s는 각 시행에서 성공할 확률, 마지막으로 cumulative는 함수 형태를 계산하는 논리 값으로, 1 또는 TRUE이면 누적 분포 함수 값을 계산하게되며, 0 또는 FALSE면 확률 질량 함수 값을 계산하게 된다.(1) 정답이 하나도 없을 확률은 얼마인가?=BINOMDIST(0, 20, 1/5, FALSE)▶ 엑셀 수식=BINOMDIST(0, 20, 1/5, FALSE)▶ 구하는 값P(X=0)=0.011529215(약`1.15%)(2) 8개 이상의 정답을 맞힐 확률은 얼마인가?=BINOMDIST(7, 20, 1/5, TRUE) 함수 인수▶ 엑셀 수식=1-BINOMDIST(7, 20, 1/5, TRUE)▶ 구하는 값P(X GEQ 8)=1-P(X LEQ 7)#`````````````````````````````````=1-0.967857337#`````````````````````````````````=0.032142663`(약`3.21%)(3) 4개부터 6개 사이의 정답을 맞힐 확률은 얼마인가?▶ 엑셀 수식=BINOMDIST(6,20,1/5,TRUE)-BINOMDIST(3,20,1/5,TRUE)▶ 구하는 값P(X LEQ 6)-P(X LEQ 3)=0.913307486-0.411448862#```````````````````````````````````````````````````````````````````````````=0.501858624`(약`50.19%)=BINOMDIST(3,20,1/5,TRUE) 함수 인수=BINOMDIST(3,20,1/5,TRUE) 함수 인수(2) 연습문제 19번직무연수 과정에서 시험성적의 분포는 근사적으로N(14,~2^2 )라고 한다. 만약 11점 이하를 받은 사람은 재교육 과정을 거쳐야 한다면, 재교육 대상인 사람의 비율을 구하시오.엑셀에서 아래의 NORMDIST 함수를 이용하여 정규확률변수 표준화 과정 없이 확률을 계산할 수 있다.=NORMDIST(x, mean, standard_dev, cumulative)여기서 x는 확률 분포를 구하려는 값, mean은 평균, standard_dev는 표준편차, cumulative는 함수 형태를 계산하는 논리 값으로, 1 또는 TRUE이면 누적 분포 함수 값을 계산하게되며, 0 또는 FALSE면 확률 질량 함수 값을 계산하게 된다.=NORMDIST(11,14,2,1) 함수 인수▶ 엑셀 수식=NORMDIST(11,14,2,1)▶ 구하는 값직무 연수 과정의 시험 점수가 11점 이하인 경우를구하는 식P(X LEQ 11)=0.066807201`(약`6.68%)(3) 연습문제 20번항공기 조종사에 대한 자질검사로서 몇가지의 작업을 연속적으로 얼마나 빨리 수행할 수 있는지를 측정하려고 한다. 이러한 자질검사의 소요 시간은 평균값 90분, 표준편차 20분인 정규분포를 따른다고 한다.(1) 자질검사의 합격 상한 시간이 80분 이내라면 지원자의 몇 %나 자질검사에 합격하겠는가?
2022년 1학기 확률의개념과응용 출석수업 과제물(평가결과물) 표지(온라인제출용)________________________________________________________________________________- 목 차 -1. 주사위 던지기를 R 프로그램으로 12번, 120번, 1,200번, 12,000번 시행하여 각 숫자별 히스토그램으로 표현하고 그 결과의 의미를 정리하시오, 다만 본인의 학번 뒷자리 4개를 seed로 지정하시오(10점).https://www.kaggle.com/dbetter/prob-lab?scriptVersionId=19831012&cellId=3코드와 그래프를 캡처하여 포함R코드에 set.seed(자기학번 마지막 4자리) 추가2. 전체 인구의 5%가 어느 질병을 앓고 있다 하자. 이 질병을 검진하기 위해 사용되고 있는 어느 진단 키트를 조사한 결과, 질병에 걸린 사람중 9x%는 양성 반응을 보이고, 질병에 걸리지 않은 사람 중 9y%는 음성 반응을 보인다. 어떤 사람의 진단 키트 테스트 결과가 양성반응이 니왔을 때 이 사람이 질병에 걸렸을 확률(P(D`|T^+ ))은(10점)? (시약 진단 결과는 양성 아니면 음성.D = 질병에 걸린 사건,T^{`+} = 진단 테스트의 결과 양성반응인 사건,T ^{`-} = 진단 테스트의 결과 음성반응인 사건)x는 자신의 학번의 마지막 자리입니다.y는 자신의 학번의 마지막에서 두번째 자리입니다.3. 확률을 이용한 최신 사례를 찾아서 정리하여 기술하시오.(10점)본인 스스로 내용을 요약해서 1페이지 이내로 정리해야 함 (출처를 밝혀야 하며, 인터넷 내용을 그대로 긁어오거나 동료 과제와 유사한 경우 감점 또는 0점 처리, 최신 사례는 시간적 의미도 있지만 잘 알려져 있지 않지만 유용한 사례를 의미합니다.)1. 주사위 던지기를 R 프로그램으로 12번, 120번, 1,200번, 12,000번 시행하여 각 숫자별 히스토그램으로 표현하고 그 결과의 의미를 정리하시오, 다만 본인의 학번 뒷자리 4개를 seed로 지정하시오.학번 뒷자리만 공개 -3679201. (1) R 프로그램 코드> par(mfrow=c(2,2))> set.seed(7920)> dice12 = sample(1:6, 12, replace = TRUE)> barplot(table(dice12)/12, ylim=c(0,0.3), main="(a) n=12")> abline(b=0, a=1/6, col=2)> dice120 = sample(1:6, 120, replace = TRUE)> barplot(table(dice120)/120, ylim=c(0,0.3), main="(b) n=120")> abline(b=0, a=1/6, col=2)> dice1200 = sample(1:6, 1200, replace = TRUE)> barplot(table(dice1200)/1200, ylim=c(0,0.5), main="(c) n=1,200")> abline(b=0, a=1/6, col=2)> dice12000 = sample(1:6, 12000, replace = TRUE)> barplot(table(dice12000)/12000, ylim=c(0,0.5), main="(d) n=12,000")> abline(b=0, a=1/6, col=2)1. (2) 결과 및 의미 해석R 프로그램을 통해 주사위 던지기를 12, 120, 1,200, 12,000회 시뮬레이션 한 결과는 다음과 같다.set.seed()에 원하는 시드 값을 부여하고 작동하면 매번 같은 결과를 불러오게 된다. 학번 끝 4자리를 난수로 부여하여 본인이 직접 시뮬레이션한 것을 인증하는 용도로 쓰인 것이지만, 해당 코드에 원하는 시드 값을 부여하고 작동하면 매번 같은 결과를 불러오는 것이 이 코드의 의미이다.정육면체의 주사위라면, 주사위를 던졌을 때, 주사위의 각 눈이 나올 확률은 상대도수적 확률로서 1/6이다. 주사위를 던진 횟수에 따른 각 눈이 나오는 횟수의 분포를 확인함으로서, 1~6의 각 주사위 눈이 나올 확률이 이론적 확률인 1/6과 실제로 가까운지 확인해보는 것이 해당 시뮬레이션의 주된 의미이다.주사위를 12회 던졌을 때 주사위 눈이 나온 각각의 횟수를 확인해보면 다음과 같다.(주사위 눈 4, 6이 2.5의 비율로 나타난 것을 기준으로 계산)주사위 눈123456합계횟수20232312이론적인 확률인 1/6 대로 결과가 나타난다면, 모든 주사위가 고르게 2번 씩 나와야하지만, 그렇지 않았다. 하지만 반복 시행 횟수가 늘어날수록 각 주사위 눈이 고르게 나오는 분포를 보이며, 시행 횟수가 늘어날수록 이론적 확률인 1/6 확률에 가까워지고 있음을 확인할 수 있다. 횟수가 적을 때에는 우연적으로 특정 눈이 일시적으로 많이 나타날 수는 있지만, 반복 시행되는 경우 각 눈이 나올 확률인 1/6에 수렴함을 알 수 있다.2. 전체 인구의 5%가 어느 질병을 앓고 있다 하자. 이 질병을 검진하기 위해 사용되고 있는 어느 진단 키트를 조사한 결과, 질병에 걸린 사람중 9x%는 양성 반응을 보이고, 질병에 걸리지 않은 사람 중 9y%는 음성 반응을 보인다. 어떤 사람의 진단 키트 테스트 결과가 양성반응이 니왔을 때 이 사람이 질병에 걸렸을 확률(P(D`|T^+ ))은(10점)?(시약 진단 결과는 양성 아니면 음성.D = 질병에 걸린 사건,T^{`+} = 진단 테스트의 결과 양성반응인 사건,T ^{`-} = 진단 테스트의 결과 음성반응인 사건)202235-367920x=0, 90% 양성 반응y=2, 92% 음성 반응문제에 나타는 사건을 다음과 같이 정의한다.D=질병에 걸린 사건D ^{c}=질병에 걸리지 않은 사건T ^{+} =진단 테스트 결과 양성 반응인 사건T ^{-} =진단 테스트 결과가 음성 반응인 사건전체 인구의 5%가 질병을 앓고 있으므로,P(D)=0.05#P(D ^{c} )=0.95질병에 걸린 사람 중 진단 키트로 테스트 할 경우 90%는 양성 반응, 질병에 걸리지 않은 사람 중 진단 키트로 테스트 할 경우 92%는 음성 반응을 보이므로,P(T ^{+} vert D)=0.90,~ P(T ^{-} vert D)=0.10#P(T ^{+} vert D ^{ c} )=0.08,~ P(T ^{-} vert D^{ c})=0.92이다.진단 키트 검사 결과는 양성 아니면 음성이므로,D와D^c는 표본 공간을 분할한다. 따라서,P(T ^{+} )=P(T ^{+} SMALLINTER D)+P(T^{+}SMALLINTER D^{c})#~~~~~~=P(T ^{+}vertD)P(D)+P(T^{+}vertD^{c})P(D^{c})이다.어떤 사람의 진단 키트 테스트 결과가 양성 일 때, 이 사람이 질병에 걸렸을 확률은P(D LEFT | T^{+} )이라고 할 수 있다. 베이즈 정리에 따라 어떤 사람의 진단 키트 테스트 결과가 양성일 때 이 사람이 질병에 걸렸을 확률 (P(D`|T^+ ))을 계산하면 다음과 같다.P(D LEFT | T^{+} )={P(D SMALLINTER T^{+} )} over {P(T ^{+} )~~~~~~~~= {P(T ^{+}vert D)P(D)} over {P(T ^{+} vert D)P(D)+P(T ^{+} vert D ^{c} )P(D ^{c} ) RIGHT . RIGHT .} ~~~~~~~~= { 0.90 TIMES 0.05 } over {0.90 TIMES 0.05 + 0.08TIMES0.95}~~~~~~~~= {0.045} over {0.045+0.076}~~~~~~~~= {45} over {121}THEREFORE ~P(D LEFT | T ^{+} )= 약 37.19 %3. 확률을 이용한 최신 사례를 찾아서 정리하여 기술하시오.(10점)(1) 기존 축구 스포츠 통계의 한계스포츠 통계는 팀의 성적 개선과 특정 선수의 능력을 객관적으로 확인하여 올바른 전략을 수립하는데에 매우 효과적이다. 최근 축구 통계에서는 슛팅 숫자, 반칙, 페널티킥 등 경기로부터 생산되는 1차 데이터만으로는 경기의 정확한 분석에 한계가 있다는 것이 명확해지면서, 2차적인 데이터를 산출하여 더욱 세밀한 경기 분석을 위한 지표를 개발하고 있다. 개발된 지표 중 대표격인 기대 득점(xG, expected goals)를 소개하고자 한다.(2) xG란 무엇인가?xG는 ‘이 위치, 이 상황에서 슈팅할 때 골이 들어갈 확률’ 이다. 팀 혹은 특정 선수가 시도한 슛의 질과 양을 바탕으로 예상하는 득점 확률이라고 볼 수있다. 지금까지 있었던 축구 경기들의 질적 데이터 분석을 통해, 경기 내 특정 상황에서 골이 들어갈 확률이 계산된 수치이다. Opta의 데이터 분석가 Sam Green의 아이디어로 시작되었으며, Opta에서는 30만 개의 골 데이터를 통해, 특정 상황에서 골이 들어갈 확률을 계산하였다.이렇게 수많은 득점 빅데이터를 활용하고 세분화하는 과정을 통해 다양한 상황, 위치, 슛 시도 등에 따라 골이 들어갈 확률이 정해지고, 경기 내의 동일한 상황이 발생했을 때, 각각의 슛에 xG 값을 부여한다. 이를 통해 경기 내 비슷했던 상황에서 슛이 득점으로 이어졌던 확률과 실제 득점을 비교해 경기를 치룬 팀이 기대 득점에 충족한 경기력을 보였는지 확인할 수 있다.(3) xG가 가지는 의미xG는 지금까지 발생한 특정 상황에서 골로 이어지는 확률과 비교하여, 특정 팀 혹은 선수가 통계적으로 얼마나 많은 득점 기회 창출 능력이 있냐, 결정력이 좋았나 나빴나를 수치로 비교해볼 수 있다는 데 장점이 있다. 팀 단위에서는 얼마나 많은 양질의 득점 기회를 만들었는지, 선수 개개인으로서는 골 결정력이 어느정도 탁월한지를 파악할 수 있는 수치이다. 또한 경기의 승패에 영향을 미치는 골과 관련한 수치이기 때문에, 기대 득점을 기준으로 경기의 내용을 대변할 수 있다.
2022년 1학기 데이터정보처리입문 출석수업 과제물(평가결과물) 표지(온라인제출용)________________________________________________________________________________- 목 차 - 교재 14쪽의 예제 1.1을 참고한 엑셀 그래프 작성(KOSIS 자료 참조)(1) 1990년-2020 연도별 전국 총출생성비 시계열도표 작성 및 경향(2) 1990년-2020 연도별 서울, 경상북도 총출생성비 시계열도표 작성 및 비교(3) 1993년-2020 연도별 전국 합계출산율 시계열도표 작성 및 경향, 합계출산율 설명 교재 75쪽의 데이터(score.txt)에 대한 R 분석(1) 평균, 중앙값, 표본분산, 표본표준편차, 변동계수 계산(2) 줄기-잎 그림, 히스토그램, 상자그림 작성 및 설명 교재 119쪽의 연습문제 2 수식이 포함된 한글 문서 작성 교재 14쪽의 예제 1.1에 제시된 과정을 따라 엑셀을 활용하여 다음 그래프를 작성하시오. 필요한 통계정보는 KOSIS에서 찾아서 활용하시오.(1) 1990년부터 2020년까지의 연도별 전국 총출생성비를 시계열도표로 나타내고 경향을 설명하시오.출생성비는 여아 100명 당 남아의 수를 나타내며, 남아 선호사상 등의 문화적 요인, 낙태에 대한 법적·종교적 관점, 산아 제한 등의 정책적 요인 등의 변수에 영향을 받는다.1990년~2020년 대한민국의 전국 총 출생성비는 감소 후 일정 수준을 유지하는 경향을 보이고 있다. 1990년부터(116.5) 1997년도까지(108.2) 다소 가파르게 감소(8.3명) 하였고, 1998년부터(110.1) 2011년(105.7)까지는 완만한 감소세(4.4명)를 보였다. 이후 2020년도까지(104.8)는 비교적 작은 폭의 변화와 함께 미약한 감소세를 보이는 경향이다.과거 높은 출생성비는 베이비붐 세대 이후의 인구 산아제한 정책은 한국의 전통적인 남아 선호사상과 충돌을 일으킨 결과이다. 1980~90년대 태아의 성별을 미리 감별할 수 있는 초음파 기기가 상용화되면서 여아를 낙태하는 경향이 발생하여 자연적인 범위를 벗어난 출생성비가 나타나게 되었다. 시간이 흐르며 문화적인 인식이 개선됨과 함께 남아 선호 사상 풍조는 줄어들었고, 2005년 생명윤리 법이 제정되어 태아의 성별을 미리 감별하여 출산하는 것이 금지되며 법적인 제도 또한 마련되어 2006년 이후부터는 자연적 범위의 성비가 유지되는 경향을 보이고 있다.(2) 1990년부터 2020년까지의 연도별 서울과 경상북도의 총출생성비를 하나의 시계열도표에 나타내고 비교하여 설명하시오.경상북도는 대부분 서울의 출생성비보다 높은 수치를 보이고 있다. 경북의 출생성비는 서울보다 이 기간 동안 평균 4.6명 높았다. 가장 높은 차이를 보였던 1990년도에는 무려 17.3명이 더 높았으며, 2018년 까지는 경북의 출생 성비가 서울보다 높은 수준을 유지했다. 2019년에는 오히려 서울의 성비가 3.7명 더 높았다.이러한 경향을 보이는 이유는 경북 지역의 전통적인 요인으로(유교 문화와 보수적 색채 등) 남아 선호 사상의 해소가 서울을 비롯한 대도시에 비해 늦어졌기 때문으로 보인다.(3) 1993년부터 2020년까지의 연도별 전국 합계출산율을 시계열도표로 나타내시오. 합계출산율을 설명하고, 시계열도표를 통해서 합계출산율의 연도별 경향을 설명하시오.합계출산율이란 “한 여자가 가임기간(15~49세)에 낳을 것으로 기대되는 평균 출생아 수”이다. 1993년부터 2020년 까지의 대한민국의 전국 합계출산율은 계속 감소하는 경향을 보인다. 1993년부터 2000년까지 연평균 -0.025명으로 꾸준히 감소해오던 경향은 2001년(-0.171명)과 2002년(-0.131)에 들어서며 가장 큰 폭의 감소세를 보였다. 이후 소폭의 상승과 하락을 반복해왔으며, 2016년부터는 다시 가파른 하락세가 계속되어, 2018년도부터는 1명 이하의 합계출산율을 보이기 시작했으며, 꾸준히 감소세를 나타나며 가장 최근의 데이터인 2020년도에는 0.837명으로 기대 평균 출생아 수를 보이고 있다. OECD 회원국 중 최저 출산 국가인 한국의 합계 출산율의 감소 경향은 지속될 것으로 예상된다. 혼인 건수 자체가 감소함과 더불어 출산 연령이 높아지며 이런 경향이 나타나고 있다. 교재 75쪽에 제시된 데이터 score.txt(이기재 교수 홈페이지 자료실에업로드 되어 있음)에 대해서 R을 이용하여 다음 분석을 하시오.(1) 평균, 중앙값, 표본분산, 표본표준편차, 변동계수를 구하시오.R 프로그램을 통해 score,txt 데이터 파일을 읽고, 각각의 데이터를 분석한 결과는 다음과 같다.평균중앙값표본 분산표본 표준편차변동계수47.4461548404.4461520.107550.423792(2) 줄기-잎 그림, 히스토그램, 상자그림을 그리고 설명하시오.(2)-1. 줄기-잎 그림> stem(score)줄기-잎 그림(stem-and-leaf plot)은 데이터의 분포를 대략적으로 확인하기 위하여 작성하는 그래프이다.줄기-잎 그림은 큰 자리수와 작은 자리수가 분할되어 나타난다. 여기서는 10의 자리를 줄기, 1의 자리를 잎으로 나타내었다.군집이 생성되어 있는지, 얼마나 분산되어 있는지, 특이값이 존재하는지 등의 여부를 파악하는 데 용이하다. 해당 그래프에서는 50점 대의 데이터가 가장 많고, 80, 90점대의 데이터가 가장 적다는 것을 한눈에 파악할 수 있다.(2)-2. 히스토그램> hist(score)히스토그램(histogram)은 연속적인 양적 자료를 일정한 범위의 구간으로 나누고, 각 구간에 속한 도수를 바탕으로 작성된 그래프이다.연속적인 양적 자료의 분포를 파악하는데 용이하며, 자료의 규모가 큰 경우에 작성하기 적합한 그래프이다. 아래 히스토그램에서는 각 점수대의 분포를 한눈에 확인할 수 있다.(2)-3. 상자그림boxplot(score)상자그림(boxplot)은 특정한 수치들의 값을 기반으로 특이값과 함께 표현된 그래프이며, 데이터의 최솟값, 최댓값, 중앙값, 제1사분위수, 제3사분위수의 5가지 숫자요약을 바탕으로 후 작성된다.
2022학년도 1학기 통계조사방법론 공통형 중간과제물(온라인제출용)__________________________________________________________________________________1. (8점) 유권자의 교육수준과 정치에 대한 관심 정도의 관련성을 분석하고자 다음과 같은 연구가설을 설정하였다.(가설) 교육수준이 높아질수록 유권자의 정치에 대한 관심도는 높아진다.(1) 독립변수와 종속변수를 정의하시오. 이 문제에서 독립변수와 종속변수에 개입하여 둘 사이의 관계를 왜곡시킬 수 있는 변수가 있다면 예시하고 설명하시오.① 독립변수와 종속변수독립변수란 ‘실험에서 자극을 주는 변수’이다. 다른 변수의 영향을 받지 않는다는 ‘독립’의 통계학적 의미에서 알 수 있듯이, 이는 다른 변수로부터 영향을 받는 것이 아닌 다른 변수에 영향을 미치는 원인이 되는 변수이다. 종속변수란 ‘자극에 대한 반응이나 결과를 나타내는 변수’를 의미한다. 즉, 다른 변수로부터 영향을 받은 결과를 나타내는 변수이다.② (가설)의 독립변수와 종속변수의 관계를 왜곡시킬 수 있는 변수위의 (가설)은 ‘(유권자의) 교육수준’이라는 원인(독립변수)이 ‘(유권자의) 정치에 대한 관심도’라는 결과(종속변수)에 영향을 미치는지 검정하기 위해 설정되었다. 그러나 (가설)의 독립변수는 인구사회학적 특성을 대표하기에 한계가 있어 종속변수에 독립변수의 값이 같더라도 다른 결과를 불러올 수 있다. 아래는 종속변수가 같더라도 거주지와 직업의 특성에 따른 정치적 관심도가 달라질 수 있는 예시이다.< 예시 >A씨와 B씨는 국내 굴지의 이공계 대학에서 성공적으로 항공 우주학 박사 학위를 취득한 대한민국 출신의 인재들이다.A씨는 한국 항공 우주 산업의 한계를 느껴 미국 현지의 T사에 입사하여 일하며 미국에서의 본인의 커리어의 발전 가능성에 대단히 만족하여 미국 시민권도 취득하였다. 그는 고학력자이지만, 한국에서의 본인의 커리어와 삶이 한국의 정책적 상황으로서는 개선 가능성이 없다고 판단하여, 지지하는, B씨는 이후의 교육감 선거 후보자의 공약에 대한 관심이 높으며 꼭 선거에 참여하고자 한다.A씨와 B씨의 항공 우주학 박사 학위라는 동일한 종속 변수에도 불구하고, 정치에 대한 관심도는 이와 같이 달라질 수 있다.(2) 위의 가설을 검정하기 위한 연구설계를 간략하게 기술하시오.① 기획과 준비투표율이 저조한 지역이나 단체 등의 특성을 파악하여 투표율을 개선하는 방안을 찾으려는 문제의식으로부터 ‘교육수준이 높아질수록 유권자의 정치에 대한 관심도는 높아진다.’라는 연구문제가 설정되었을 것으로 예상할 수 있다.이를 바탕으로 예비조사를 실시한다. 투표율과 인구사회학적 특징 간 관계를 연구한 기존의 자료들을 면밀하게 검토하고, 다시 조사할 가치가 있는 항목들을 선별하며, 새로 조사가 필요한 항목들은 구체화한다. 조사할 내용과 방식 등의 기획이 완료되면, 필요한 자원을 확보하고 이후 단계별 수행 과정을 준비한다.② 기초작업 단계기초작업 단계는 3개의 갈래로 나뉘어지며, 거의 동시에 이루어진다. 만들어 낸 질문지가 실제 조사 시 제 기능을 온전히 발휘할 수 있을지를 파악하고, 발생 가능한 문제를 사전에 개선해내기 위해 본조사 전에 사전 조사를 실시한다. 또한 실제 조사에서 어떤 식으로 자료를 수집할지 결정하고, 조사원들은 선발하고 미리 교육한다. 그리고 조사 대상의 모집단을 선정 후 이를 가장 잘 대표할 수 있는 표본을 선정한다. 가설로 미루어보아, 모집단은 대한민국의 유권자이다. 대한민국의 유권자 전체를 조사할 수 없기에 모집단을 대표할 수 있는 일부를 선정한다. 선정된 지역에 면접원(조사원)들을 파견하기 전 협조를 요청한다.③ 현지작업 단계현장조사를 실시한다. 현지 작업 단계에서는 조사원들을 잘 감독하여 조사의 오류나 오차가 발생하지 않도록 한다. 조사원들이 수집한 데이터는 검토한다.④ 결과분석현장 조사를 통해 수집한 데이터를 유의미한 데이터로 정제할 수 있도록 부호화한다. 질문에 대한 답변을 숫자로 변경하여 알아볼 수 있는 형태로 가공한다. 이 과정에서 데이터의 입력2. 귀하께서는 오는 22년 06월 01일 (수)에 시행되는 전국동시지방선거에 투표하실 예정이십니까?3. 귀하가 지지하는 정당이 있으십니까?4. 귀하께서는 지지하는 정당의 정책에 대해 어느 정도 알고 계십니까?5. 귀하의 정치 성향은 어느 쪽에 가깝다고 생각하십니까?6. 귀하의 최종 학력은 어떻게 되십니까?2. (7점) 다음 물음에 대해서 A4 용지 2매 이내로 설명하시오.(1) 질문지의 개념, 작성절차, 문항배열시 고려사항을 정리하시오.① 질문지의 개념질문지는 조사하고자 하는 데이터를 얻기 위한 질문들을 짜임새 있게 구성한 유인물이다. 설문지, 질문서라고도 하며, 표본 집단으로부터 얻고자 하는 정보를 얻어내는 직접적인 소통의 창구이므로, 조사의 성공에 지대한 영향을 미치는 요소이다.② 질문지의 작성 절차1) 자료 수집 방법 결정연구의 목적과 연구의 핵심이 되는 문제를 면밀하게 검토하여 어떤 조사 방법이 가장 효율적일지 결정한다.2) 질문의 내용 결정수집이 필요한 데이터의 성격에 따라 질문의 내용을 결정한다.3) 질문의 방법, 형식, 배열순서 최적화동일한 질문 내용일지라도 어떻게 질문하는지, 어떤 순서로 질문하는지에 따라 응답자의 협조를 더 잘 이끌어낼 수 있다.4) 구체적인 질문 문항 제작 및 배열하여 초안 작성응답 오류가 없도록 세밀하고 실제적인 질문을 제작하고 배열하여 초안을 작성한다. 처음부터 완벽한 질문지가 제작될 수는 없으므로, 초안 및 수정과정을 거친다.5) 인사말 작성 및 응답 요령 수립일부 질문에서는 보조적인 응답 지침이 있다면, 응답자가 질문을 오해하거나 잘못 이해하여 잘못된 응답을 하는 경우를 줄일 수 있다. 또한 친절한 인사말을 통해 응답자의 거부감을 줄이고 협조를 이끌어낼 수 있다.6) 사전조사 실시 후 질문지 수정 및 보완본 조사 이전 사전 조사를 통해, 작성한 질문지가 실제 조사에 사용되었을 때의 보완점을 미리 파악하고 이를 반영한다.7) 부호화조사 결과를 효과적으로 데이터화하고, 조사 결과의 신뢰도를 향상시키기 위해 부호화 혹은 사질문에서 구체적 질문으로3) 인구사회학적 특성에 관한 질문, 민감한 질문은 뒤로4) 내용별 묶기, 자연스럽고 논리적인 순서5) 내용이 같거나 척도가 동일한 질문은 모아서6) 동일한 질문 및 응답범주는 동일한 면에 있도록 배열(2) 질문지를 작성할 때 응답자의 인구사회학적 특성을 묻는 이유는 무엇인가? 인구사회학적특성을 질문지 앞쪽에서 물을 경우 발생하는 문제는 무엇인가?통상 질문지에는 인구 사회학적인 특성, 즉 인적사항을 수집하는 질문이 포함되어있다. 이러한 성별, 연령, 직업, 교육수준, 소득, 주거지, 출신지 등의 인구 사회학적 특성을 조사에 포함하는 이유는 사회현상에 대한 원인을 분석하여 그 문제점과 해결의 실마리를 찾을 수 있기 때문이다.예를 들어, 앞서 과제 1번에서 다룬 가설인 ‘교육수준이 높아질수록 유권자의 정치에 대한 관심도는 높아진다.’라는 주제로 사회조사를 실시한다면, 교육수준이라는 인구 사회학적 특성에 따른 유권자의 정치에 대한 관심도의 상관관계를 파악할 수 있다. 인구 사회학적 특성은 우리가 마주하고 있는 사회현상의 원인이 될 수 있으며, 특정 사회현상을 개선하기 위한 타겟을 파악하는데 주요한 힌트가 될 수 있다.그러나 인구 사회학적 특성은 신상 정보, 즉 개인정보에 가깝다. 예를 들어 교육수준에 대한 질문이 앞에 나온다면, 교육수준이 상대적으로 낮은 응답자들은 불쾌한 감정을 느끼고 실제 조사에 필요한 질문에 대한 응답을 제대로 하지 않거나 거부하는 등 조사 전반에 영향을 미칠 수 있다.따라서 본 조사의 신뢰성을 높이기 위해서는 인구 사회학적 특성은 본 조사에 앞서 시행되지 않는 것이 좋다.3. (7점) 면접조사, 전화조사, 우편조사, 집단조사, 전자조사를 대표성, 효율성, 신속성, 데이터의 질적 측면에서 비교하여 설명하시오.(A4 용지 1매 이내)① 면접조사조사에 응하지 않는 사람을 조사원이 직접 설득하거나, 차후 재조사를 시행할 수 있어 표본의 대표성을 높일 수 있다는 장점이 있다. 그러나 직접 조사 대상을 대면하여 조사해야하는 만큼 할 수 있어 고품질의 데이터를 취합할 수 있다.② 전화조사전화 이용자만이 조사 대상이 될 수 있으므로 표본의 대표성은 낮다는 단점이 있으나, 오늘날 대부분의 사람이 휴대폰을 이용하고 있어 휴대전화를 대상으로 조사한다면 대표성은 상당히 개선될 수 있다. 더하여 직접 대면이나 이동 소요 없이 조사원이 전화를 거는 행위만으로 조사가 성사될 수 있기에 상대적으로 적은 시간, 물리적 자원으로 조사가 이루어질 수 있다. 최근에는 컴퓨터를 통한 전화면접이 가능하여, 부호화 작업이 조사와 동시에 이루어져 더욱 효율적으로 데이터를 수집할 수 있다. 그러나 주로 수화기 너머 들려오는 정보에 의존하여 조사가 이루어지기 때문에 질문의 길이나 깊이에 대한 제한이 있으며, 의사소통이 제대로 이루어지지 않을 우려가 있다.③ 우편조사질문지를 우편으로 보내기 때문에 겨냥한 응답자가 아닌 다른 사람이 조사에 응할 가능성이 있으며 응답률(회수율)이 낮은 편이기에 대표성은 다소 떨어질 수 있지만, 적은 비용으로 광범위한 지역의 조사를 수행할 수 있다는 장점이 있다. 제작된 질문지를 응답자들에게 발송하면 되므로 방문할 필요 없이 멀리 떨어진 지역의 데이터도 수집할 수 있기 때문이다. 그러나 FAX를 이용하지 않는다면 우편을 발송하고 다시 수신하는 시간이 소요되어 신속성은 다소 떨어지는 조사 방식이다. 데이터의 질적 측면에서는 응답자는 익명성을 보장받을 수 있으며, 심층적이고 많은 질문에 충분한 시간을 두고 답변을 할 수 있으며, 질문지에 대해서만 답변이 이루어지므로 조사원의 역량에 따른 영향을 받지 않는다는 점이 장점이다.④ 집단조사표본 집단을 모아놓고 조사를 진행하기 때문에 응답자가 비밀유지가 되지 않는다는 느낌을 갖거나, 표본 집단 내에서 통용되는 사회적 규범이나 분위기가 응답에 영향을 줄 수 있다는 단점이 있다. 하지만 표본 집단을 통제할 수 있는 조사원이 현장에 방문하기 때문에 면접조사의 장점이 드러나면서도 비용과 시간이 절약된다는 장점이 있다.⑤ 전자조사전자조사는 무엇보다 신속성과 효율성있다.
2022학년도 1학기 R컴퓨팅 출석수업 과제물(평가결과물) 표지(온라인제출용)________________________________________________________________________________- 목 차 -1. R에서 다음 작업을 수행하시오. (총 8점, 각 2점)2. R에 내장되어 있는 USArrests 데이터를 이용하여 다음 각각의 물음에 답하시오. (총 7점)3. 어느 스터디 모임 12 명의 자격증 모의시험 응시 결과, 취득 점수가 82, 65, 73, 72, 91, 83, 66, 71, 80, 55, 79, 96과 같이 나타났다고 하자. 다음 물음에 답하시오. (총 9점)4. 반복문을 실행하여 아래와 같은 결과를 출력해 보려고 한다. 단, 반복문의 인덱스 i를 1에서 5까지 증가시키면서 (즉, i in 1:5) 적절한 함수 및 연산을 이용하여 출력한다. 다음 물음에 답하라.(총 6점)※과제 내에 프로그램 코드는 텍스트로 제시하고 실행 결과 화면을 캡쳐하여 붙여넣으십시오.1. R에서 다음 작업을 수행하시오. (총 8점, 각 2점)1.-1) 자신의 학번의 각 자리로 이루어진 벡터 x를 정의하시오.예를 들어 학번이 202235-123456 이라면, (2,0,2,2,3,5,1,2,3,4,5,6)과 같은 벡터를 생성하여 객체 x에 할당해야 한다.저의 학번은 202235-367920입니다.> x mean(x)[1] 3.416667> sum(x)/length(x)[1] 3.4166671.-2)-② 벡터 x의 분산> var(x)[1] 7.7196971.-2)-③ 벡터 x의 중앙값> median(x)[1] 2.51.-3) 자신이 정의한 벡터 x의 맨 끝자리를 결측치 NA로 바꾸어 벡터 y를 정의하시오.예를 들어 1)에서 정의한 x와 같은 경우라면 y는 (2,0,2,1,3,5,1,2,3,4,5,NA)가 된다.1)에서 정의한 벡터 x는 (2,0,2,2,3,5,3,6,7,9,2,0)으로, 마지막 자리 0이 NA가 됩니다.> y mean(y,na.rm=TRUE)[1] 3.7272731.-4)-② 결측치를 제외한 벡터 y의 분산> var(y,na.rm=TRUE)[1] 7.2181821.-4)-③ 결측치를 제외한 벡터 y의 중앙값> median(y,na.rm=TRUE)[1] 32. R에 내장되어 있는 USArrests 데이터를 이용하여 다음 각각의 물음에 답하시오. (총 7점)2.-1) [ ]기호를 이용하여 Indiana 주의 UrbanPop 값을 추출하시오. (2점)[ ] 안에 필요한 데이터를 추출하기 위한 행의 이름인 Indiana와 열의 이름인 UrbanPop을 입력하는 간단한 방식을 사용하였습니다.> USArrests["Indiana","UrbanPop"][1] 652.-2) 5행부터 50행까지를 제외한 나머지 행의 1열에서 3열까지의 원소를 추출하시오. (2점)USArrests 데이터와 [ ]를 사용하였습니다. 행에 -를 사용하여, 필요하지 않은 행을 제외하였고, 1열부터 3열까지의 데이터를 불러오기 위해 열에는 1:3을 입력하였습니다.> USArrests[-5:-50,1:3]Murder Assault UrbanPopAlabama 13.2 236 58Alaska 10.0 263 48Arizona 8.1 294 80Arkansas 8.8 190 502.-3) USArrests에서 Assault 값이 159보다 큰 주들의 Murder 평균값을 구하시오. (3점)특정조건에 맞는 행을 추출하는 subset 함수를 통해 USArrests 데이터에서 Assault 값이 159보다 큰 주들을 선별한 후, Murder를 나타내는 1열의 평균을 나타내는 명령어를 입력하여 평균을 구하였습니다.> subset(USArrests,Assault>159)Murder Assault UrbanPop RapeAlabama 13.2 236 58 21.2Alaska 10.0 263 48 44.5Arizona 8.1 294 80 31.0Arkansas 8.8 190 50 19.5California 9.0 276 91 40.6Colorado 7.9 204 78 38.7Delaware 5.9 238 72 15.8Florida 15.4 335 80 31.9Georgia 17.4 211 60 25.8Illinois 10.4 249 83 24.0Louisiana 15.4 249 66 22.2Maryland 11.3 300 67 27.8Michigan 12.1 255 74 35.1Mississippi 16.1 259 44 17.1Missouri 9.0 178 70 28.2Nevada 12.2 252 81 46.0New Mexico 11.4 285 70 32.1New York 11.1 254 86 26.1North Carolina 13.0 337 45 16.1Rhode Island 3.4 174 87 8.3South Carolina 14.4 279 48 22.5Tennessee 13.2 188 59 26.9Texas 12.7 201 80 25.5Wyoming 6.8 161 60 15.6> mean(subset(USArrests,Assault>159)[,1])[1] 11.1753. 어느 스터디 모임 12 명의 자격증 모의시험 응시 결과, 취득 점수가 82, 65, 73, 72, 91, 83, 66, 71, 80, 55, 79, 96과 같이 나타났다고 하자. 다음 물음에 답하시오. (총 9점)3.-1) x라는 객체에 점수를 입력하여 12개의 원소를 갖는 벡터 구조를 생성하시오. (2점)> x x[1] 82 65 73 72 91 83 66 71 80 55 79 963.-2) 12개의 NA 값을 갖는 grade라는 객체를 생성하시오. (2점)> grade grade[1] NA NA NA NA NA NA NA NA NA NA NA NA3.-3) x에 입력된 점수를 하나씩 읽으면서 90점 이상이면 “A”, 80점 이상이면 “B”, 70점 이상이면“C”, 60점 이상이면 “D”, 60 점 미만이면 “F”를 부여하여 grade에 저장하시오. (3점)ifelse 조건문을 실행하여 점수 별 등급을 부여하였습니다. ifelse(조건, 결과, 결과를 저장할 데이터)를 통해 중첩 조건문을 통해 한줄의 코드로 등급 부여가 용이하다고 생각하여 해당 조건문을 사용하였습니다.> grade =90,"A",ifelse(c(x)>=80,"B",ifelse(c(x)>=70,"C",ifelse(c(x)>=60,"D",ifelse(c(x) grade[1] "B" "D" "C" "C" "A" "B" "D" "C" "B" "F" "C" "A"3.-4) x와 grade를 병합하여 12행 2열 형태로 나란히 출력하시오. (2점)cbind( ) 함수를 사용하여 점수 별 등급을 한눈에 확인 가능하도록 병합하였습니다.> cbind(x,grade)[,1] [,2][1,] "82" "B"[2,] "65" "D"[3,] "73" "C"[4,] "72" "C"[5,] "91" "A"[6,] "83" "B"[7,] "66" "D"[8,] "71" "C"[9,] "80" "B"[10,] "55" "F"[11,] "79" "C"[12,] "96" "A"4. 반복문을 실행하여 아래와 같은 결과를 출력해 보려고 한다. 단, 반복문의 인덱스 i를 1에서 5까지 증가시키면서 (즉, i in 1:5) 적절한 함수 및 연산을 이용하여 출력한다. 다음 물음에 답하라.(총 6점)[1] 3[1] 5 5[1] 7 7 7[1] 9 9 9 9[1] 11 11 11 11 114.-1) for 반복문을 1회 이용하여 위의 결과를 출력해 보시오. (2점)변수인 i가 1부터 5까지의 값을 가질 때 까지 반복되는 for 반복문입니다. 여기서, rep(i,i) 함수는 첫 번째 인자를 두 번째 인자 횟수 만큼 출력하기 때문에, 두 번째 인자는 변화하지 않고 첫 번째 인자만 변화하도록 인자를 변경하여 위의 반복문을 실행하는 코드를 작성하였습니다.> for(i in 1:5) print(rep(i*2+1,i))[1] 3[1] 5 5[1] 7 7 7[1] 9 9 9 9[1] 11 11 11 11 114.-2) while 반복문을 1회 이용하여 위의 결과를 출력해 보시오. (2점)