1. 런던 콜레라지도(교재 p.4)를 조사하고 데이터 시각화의 필요성을 설명하시오.(7점)런던 콜레라지도란, 1850년대 영국에서 콜레라의 원인을 파악하기 위해 만든 지도를 일컫는다. 존 스노라는 인물이 만든 지도이며, 제작자는 감염에 따른 사망자 수와 주소가 포함된 데이터를 기반으로 아래의 프로세스대로 지도를 작성했다.데이터에서 첫 번째 줄에 나와있는 사망자의 주소를 지도에 표기데이터에서 두 번째 줄에 나와있는 감염자 주소를 지도에 표기상기 데이터들을 점, 사각형 등으로 표기하였으며, 사망자가 2명 이상인 경우 별도 구분함지도 시각화를 통해 런던 콜레라 유포의 현황을 한눈에 쉽게 파악할 수 있었다. 공용 펌프가 있는 지역을 중심으로 점, 사각형 등의 표시가 밀집되어 있었다는 점을 통해 최초 콜레라 유포 지역을 추정할 수 있게 되었고, 이는 콜레라 종식의 토대가 되었다.상기 사례는 데이터 시각화의 필요성에 대한 근거가 될 수 있다. 데이터를 시각화하면 새로운 정보를 찾아낼 수 있을 뿐 아니라, 산발적으로 흩어져있는 정보들이 가지고있는 함의를 쉽게 파악할 수 있다. 즉, 큰 그림을 볼 수 있다는 것이다.데이터 시각화는 이제 일상생활에서 뗄 수 없는 것이며, 해가 갈수록 발전하고 있다. 이제는 모든 기업의 보고장표를 간단한 인포그래픽 등으로 표시하며, 대통령 선거 등과 관련된 지표를 언론에서 대중에게 공개할 때도 단순 정적 시각자료 뿐 아니라 동적인 흥미요소를 가미하여 데이터를 시각화 해 대중들에게 전달하고 있다. 다만, 데이터 시각화에도 맹점이 존재하는데, 데이터의 의미나 수치 자료를 구체적으로 제시하지 않고 그림만 제공할 경우 오 해석의 여지가 있다. 또한 수치를 무시하고 시각 자료를 왜곡해 전달하는 경우 실제와는 다른 내용의 정보를 수용하게 되는 경우도 있다. 따라서 데이터 시각화 작업을 하는 자는 최대한 객관적인 시선에서 작업을 해야 할 것이다.2. 아름답고 의미 있는 데이터 시각화 사례를 발굴하고 그 이유를 정리하시오.(7점)위 1번에서 언급한 대통령 선거 개표방송의 사례를 아름답고 의미있는 데이터 시각화의 사례로 설명하고자 한다. 다소 지겹고 단순 정보 전달의 목적만 가지고 있던 대통령 선거 개표 방송이 한국에서 엔터테인먼트의 일부로 놀랍게 변화한 사례는 주목할 만하다.방송사들은 대선 후보자들의 실시간 득표율을 마라톤 경기, 칼싸움 등으로 재미있게 표현했으며, 구체적 수치가 아닌 단순 현황만 알고자 하는 사람들은 칼싸움으로 표현된 영상의 승패를 가지고 현황을 알 수 있다. 또한, 단순 정치 이벤트였던 개표를 전 국민의 엔터테인면트로 승화시켰다는데 그 의의가 있다. 이는 전 세계 어디에서도 찾아보기 힘든 사례이며, 요즘 한국에서 지겹도록 언급하고있는 산업 간 융합 서비스의 좋은 예시이자, 창의성을 주입식으로 배운 90년대 생들이 사회에 진출하여 드디어 만들어 낸 괄목할만한 성과이다.앞으로 이러한 트렌드는 개표방송 뿐 아니라 전 영역에서 확대될 것으로 보인다. 특히, 데이터의 시각화가 정적인 그림, 사진을 넘어 동영상으로 구현된다는 것은 큰 시사점을 가지며, vr이나 3d 모델링 등과의 연계를 통한 확대도 가능할 것으로 보인다.3. R 패키지 “vcd”에 내장된 “Arthritis” 데이터셋은 류마티스 관절염 환자를 대상으로 한 임상시험 결과 데이터이다. 각 행은 각 환자를 나타내며, 변수 Treatment는 그룹 (Treated = 새로운 치료제를 투약한 그룹, Placebo = 위약을 받은 그룹)을 나타낸다. 변 수 Sex는 성별을, Improved는 치료 결과(None = 차도 없음, Some = 약간 좋아짐, Marked = 매우 좋아짐)를 나타낸다. 새로운 치료제 투약 여부가 치료 결과와 연관이 있는지, 성별과 치료 결과 간에 연관이 있는지를 데이터 시각화를 통해서 탐구하시오. (18 점)라이브러리를 보면, 아래와 같은 지표가 도출된다.이를 점차트로 구현하면 아래와 같다.분석 결과, 새 치료제 투약은 성별에 따라 치료 결과의 빈도수에 큰 차이를 보인다.또한, 이를 모자이크플롯으로 구현하면 아래와 같다. 시각화 된 자료를 통해 검토한 결과, 플라시보 그룹과 진짜 약을 투약한 그룹 간 인원수는 유사해 지표의 유의미함을 알 수 있다. 양자 비교 시, none 비중은 플라시보 그룹에서 진짜 약을 투약한 그룹보다 2배 이상 높다. 또한 치료약을 투약한 그룹은 플라시보 그룹에 비해 marekd의 비중이 약 3배 이상 높다. 이는 새로운 치료제가 치료에 효과적이었다는 점을 시사한다.추가적으로 two way table을 통해 비교해보면 아래와 같다.해석의 결과는 위에서 언급한 것들과 비슷하다. 약을 투여한 그룹에서의 marked 비중이 플라시보 그룹보다 높기 때문에 약의 효과가 나타난 것으로 해석 가능하며, 플라시보 그룹에서의 none 비중이 치료제 투약 그룹보다 높기 때문에 플라시보 효과는 실질적으로 미미했다는 점을 알 수 있다.*코드 추가head(Arthritis)str(Arthritis)CrossTable(Arthritis$Treatment, Arthritis$Improved)mosaicplot(~ Treatment + Improved, data=Arthritis, color=c("green", "orange", "grey"))dotchart(xtabs(~ Treatment+Improved, data=Arthritis))4. R에 내장된 “airquality” 데이터셋은 1973년 5월부터 9월까지 뉴욕의 대기질에 관한 데 이터셋이다. 변수 Ozone은 대기 중 오존의 양, Solar.R은 태양방사선의 양, Wind는 풍 속, Temp는 기온을 나타낸다. 이 네가지 변수(Ozone, Solar.R, Wind, Temp)에 대한 산점도 행렬을 그리고, 이 산점도 행렬에서 알 수 있는 변수들 간의 관계에 대하여 서술 하시오. (18점)데이터 실행 시 결과물은 아래와 같다.그리고 산점도 행렬을 그리면 아래와 같다.그린 산점도 행렬의 분석을 위해 보조선을 추가하면 아래와 같다.처음 봤을 때는 큰 연관성이 없는 것처럼 보인다. 더 자세한 분석을 위해 개별 변수 별로 히스토그램을 돌려봤고, 결과는 아래와 같다.산점도 표와 히스토그램을 함께 분석한 결과, 오존이 증가하면 바람은 하락하고, 온도는 같이 증가하는 양상을 알 수 있다. 또한 일견 보기에는 바람과 오존도 약관 상관관계가 있는것으로 보인다. 그러나 히스토그램 상의 지표들을 함께 판단하여 추론한 결과, 산점도 표에서 명확하게 드러나는 오존과 바람, 오존과 온도 이외의 지표들은 상호 간 상관관계가 없는 것으로 보는 것이 타당할 것이다. 유의미한 일관성이 없기 때문이다.*코드 추가head(airquality)airquality
1. 교재 p.137 예제 5-5의 데이터(어느 학교 학생 11명의 1년 동안 읽은 책 수)에 대한 히스토그램과 상자그림을 그리고, 다섯수치요약을 산출하시오. (5점)1)히스토그램count <- c(8, 1, 10, 15, 15, 10, 5, 19, 20, 9, 10)hist(count, main='1년 동안 읽은 책 수n(학생 11명)', xlab='읽은 책 수', ylab='학생수') 2)상자그림boxplot(count) 중앙값은 10, 1사분위수 8.5, 3사분위수는 15이다. 데이터 내 이상수치는 발견되지 않는다.3)다섯수치요약fivenum(count) 각 숫자는 최솟값, 1사분위수, 중앙값(=2사분위수), 3사분위수, 최댓값에 대한 것이다.2. 교재 p.39 예제 2-11의 데이터(학생 10명이 1분당 할 수 있는 윗몸일으키기 개수)를 이용하여, 이 학생들이 대표하는 모집단의 윗몸일으키기 개수의 평균이 30과 같다고 할 수 있는지 유의수준 5%에서 검정하시오. (5점)count <- c(24, 41, 35, 8, 52, 23, 32, 37, 42, 28)t.test(count, mu=30) # t검정
1. (8점) 유권자의 교육수준과 정치에 대한 관심 정도의 관련성을 분석하고자 다음과 같은 연구가설을 설정하였다.(가설) 교육수준이 높아질수록 유권자의 정치에 대한 관심도는 높아진다.(1) 독립변수와 종속변수를 정의하시오. 이 문제에서 독립변수와 종속변수에 개입하여 둘 사이의 관계를 왜곡시킬 수 있는 변수가 있다면 예시하고 설명하시오.주어진 명제에서 독립변수는 교육수준이며, 종속변수는 유권자의 정치에 대한 관심도이다. 그러나 이는 외부 변수에 의해 왜곡될 여지가 있는데, 교육 수준이라는 독립변수에 영향을 미치는 다른 외부 요인들이 다양하기 때문이다. 그 예로는 동일한 교육 수준을 가지고 있으나 세대 차이로 인해 교육의 내용과 질이 달라진 경우가 있을 수 있다. 또한, 어떤 국가에서 교육을 받았는지에 따라서도 그 내용이 달라질 수 있다.정치에 대한 관심도, 교육 수준이라는 개념 자체도 이미 상대적이기 때문에, 이외에도 다양한 요인들이 둘 사이의 관계를 왜곡시킬 수 있다. 한국에서 생각하는 ‘정치에 대한 높은 관심도’와, 북한에서 생각하는 ‘정치에 대한 높은 관심도’ 는 다를 것이며, 미얀마에서의 ‘높은 교육수준’의 기준과 미국의 ‘높은 교육수준’의 기준이 다를 것은 명백하다.(2) 위의 가설을 검정하기 위한 연구설계를 간략하게 기술하시오. (교재 37쪽 조사연구의 단계 내용을 참고하여 연구의 전반적 과정을 기술하시오,)1)기획 및 준비- 가설 설정 및 예비조사를 기반으로 교육수준과 정치 관심도의 연관성에 대한 이론, 그리고 기존 연구 등을 선 검토함2)기초작업- 실제로 가능한 조사인지 그 가능성을 확인하고, 구체적인 연구대상을 정함- 명제에 영향을 미칠 수 있는 외부적인 변수를 고려하여 표본을 정하고, 질문지 초안을 만들어 사전조사 실시3)현지작업- 현장에서 실제 작업 수행, 설문 및 인터뷰 등4)결과분석- 응답 내용의 수치화, 구조화, 통계화 등을 통한 정량적 데이터 분석 및 현장에서 수집한 정성적 데이터 기반 결과 도출(3) 교육수준과 정치에 대한 관심 정도를 조작적으로 정의하여 측정할 수 있는 구체적인 설문을 제시하시오.- 귀하의 최종 학력은?- 귀하의 부모님의 최종 학력은?- 대한민국 대통령 피선거권 연령을 알고 있습니까?- 대한민국 국회의원 피선거권 연령을 알고 있습니까?- 귀하는 지난 대선에 참여했습니까?- 귀하는 정당 활동에 참여하고 있습니까?- 귀하는 다음 총선에 참여할 계획입니까?2. (7점) 다음 물음에 대해서 A4 용지 2매 이내로 설명하시오.(1) 질문지의 개념, 작성절차, 문항배열시 고려사항을 정리하시오.질문지란 조사하는 명제에 대한 데이터를 수집하기 위해 작성한 항목의 일반화의 집합을 일컫는다. 질문지 작성의 절차는 다음과 같다.자료수집방법질문 내용 결정질문 방법, 형식, 배열순서 결정질문지 초안 작성 및 검토Pre-test 실시질문지 재 수정질문 항목별 점수 및 부호화를 위한 사전작업 실시가독성 등을 고려한 질문지 외형 결정 및 인쇄질문지 문항 배열 시, 순서 효과를 고려하여 배열해야 한다. 순서효과란 질문지 배열 순서에 따라 응답자의 응답에 영향을 미치는 효과를 말하는 것으로, 질문지의 배열 순서에 따라 응답자의 응답 내용이 달라질 가능성이 있으므로 이를 고려해야 한다.질문지 순서는 시작질문, 본질문, 종결질문 순으로 구성되어야 한다.(2) 질문지를 작성할 때 응답자의 인구사회학적 특성을 묻는 이유는 무엇인가? 인구사회학적 특성을 질문지 앞쪽에서 물을 경우 발생하는 문제는 무엇인가?질문지 작성 시 인구사회학적 특성을 확인하는 이유는, 연구자가 연구하고자 하는 연구 결과의 왜곡을 없애고, 정확한 일반화를 하기 위함이다. 결과 일반화를 위해서는 연구 대상 집단에서 표본 추출 시, 표본이 일방향에 몰려있지 않고 다양한 집단에서 도출되어야 한다. 그래야 통계가 인구사회학적 특정 집단의 속성을 반영하지 않고, 전체 모집단의 특성을 골고루 반영할 수 있기 때문이다.그러나 이러한 인구사회학적 특성을 질문지 앞쪽에 물을 경우, 응답자의 심리적 기제가 먼저 발동하여, 응답자는 편견을 가진 채로 질문에 응답하게 될 수도 있고, 응답자의 응답 내용이 왜곡될 수 있으며, 표본 분류의 카테고리를 응답자가 미리 읽은 후 통계 조사의 의도에 따라 응답자 스스로 답변을 왜곡할 여지가 있다.3. (7점) 면접조사, 전화조사, 우편조사, 집단조사, 전자조사를 대표성, 효율성, 신속성, 데이터의 질적 측면에서 비교하여 설명하시오.(A4 용지 1매 이내)1)대표성 측면의 비교전자조사, 집단조사, 우편조사는 면접조사나 전화조사에 비해 상대적으로 대표성이 더 크다고 볼 수 있다. 전자의 조사들은 mass 조사가 가능하나, 후자의 조사는 현실적인 제약으로 인해 응답자가 상대적으로 소수일 수밖에 없기 때문이다.2)효율성 측면의 비교대표성과 마찬가지로, 전자조사, 집단조사, 우편조사의 효율성이 면접조사나 전화조사에 비해 상대적으로 더 크다. 전자의 조사들은 조사 실시자의 일회적 행동으로 다양한 집단에 응답 설문을 배포할 수 있으나, 후자의 조사들은 조사 실시자가 같은 행동을 여러 번 반복해야 한다는 측면에서 그 효율성이 떨어진다.3)신속성 측면의 비교상기 언급한 두 가지 속성과 마찬가지이다. 전자, 집단, 우편조사는 면접이나 전화조사에 비해 그 신속성이 더욱더 뛰어나다. 이는 효율성과 연관되어 있으며, 설문조사 내용의 배포와 결과 수집 측면에 있어서 전자의 조사들이 훨씬 더 신속하다.4)데이터의 질적 측면의 비교이 항목의 경우 앞의 1,2,3번 측면과는 일부 차이가 있다. 일반화하기는 어려우나, 전자, 집단, 우편조사에 비해 전화조사나 설문조사는 데이터의 질적 측면에서 더 가치가 있다고 볼 수 있다. 전자의 조사들은 직접적인 human interaction이 발생하지 않는 조사이나, 후자의 조사들은 유선상, 혹은 직접 사람과 만나 조사를 진행하기 때문에 인간 심리기재의 특성상 조사 답변이 더 진실될 수 있다. 또한 조사 과정에서 조사 진행자의 정성적인 판단으로 조사 답변의 진위여부 등을 검증하기가 수월하다.4. (8점) 익숙한 주제를 선택하여 질문지(인구사회학적 배경변인을 포함하여 15문항 내외)를 작성하시오. 질문지는 인사말을 포함해야 하며, 보기 좋게 편집하시오.주제: 현재 우리나라의 언론에 대한 관심과 외교정책에 대한 인식의 연관성 조사안녕하십니까?먼저 귀중한 시간을 할애하시어 본 조사에 응해주심에 감사드립니다. 본 설문은 현재 우리나라의 언론에 대한 관심과 외교정책에 대한 인식의 연관성을 조사하고 국민의 외교정책에 대한 지지도를 높이기 위한 자료로 귀하의 응답은 매우 소중하게 다루어 질 예정이며, 본 조사는 철저하게 익명으로 진행 될 예정이니, 안심하시고 한 문항도 빠짐없이 솔직하게 답변해주시기 바랍니다.다시한번 귀중한 시간을 내어주심에 감사드립니다,다음은 귀하께서 구독하시는 언론 매체에 대한 설명입니다. 해당하는 번호를 골라 응답해 주시기 바랍니다.1. 현재 귀하는 신문(종이/전자 등)을 구독하고 계십니까?1)예 2)아니오2. (1번에서 예라고 응답한 경우) 귀하가 주로 구독하는 언론사는?1)중앙일보 2)조선일보 3)한겨레 4)서울신문 5)동아일보 6)기타3. (1번에서 예라고 응답한 경우) 귀하가 해당 언론사를 구독하는 이유는?1) 나의 정치적 의견과 신문사의 논조가 잘 맞기 때문에2) 해당 언론사에 대한 접근이 가장 쉬워서3) 타인의 추천으로4 기타4. (1번에서 아니오라고 응답한 경우) 귀하가 신문을 구독하지 않는 이유는 무엇입니까?1) 관심이 없거나 바빠서2) 신문 외에 다른 매체를 통해 현안에 접근이 가능해서3) 신문에 나온 정보의 편향성으로 인해4) 기타다음은 귀하의 외교 정책 인식에 대한 설명입니다. 해당하는 번호를 골라 응답해 주시기 바랍니다.5. 귀하는 대한민국의 외교 정책에 많은 관심을 갖고 계십니까?1) 예 2)아니오6. (1번에서 예라고 응답한 경우) 귀하가 외교 정책에 관심을 갖는 이유는?1) 나와 직접적인 연관이 있다고 생각하기 때문에2) 언론에서 외교정책이 중요하다고 언급하고 있기 때문에3) 시사 상식을 키우기 위해4) 기타7. 귀하는 한국의 외교 정책에 대해 어떻게 인식하고 있습니까?1) 잘 하고 있음2) 보통3) 못하고 있음4) 잘 모른다다음은 귀하에 대한 질문입니다. 해당하는 번호를 골라 응답해 주시기 바랍니다.8. 귀하의 성별은?1) 남성 2) 여성9. 귀하의 연령은?1) 10대 2)20대 3)30대 4)40대 5)50대 6)60대 7)70대 이상10. 귀하의 학력은?1)고졸이하 2)전문대졸 3)대졸 4)대학원 이상11. 귀하의 연간 소득 수준은?1) 1,500만원 미만 2)1,500~2,000만원 미만 3)2,500만원~3,500만원 미만 4)3,500~4,500만원 미만 5)4,500만원 이상12. 귀하의 직업은?1)학생 2)공무원 3)사무직 4)주부 5)무직 6)기타설문에 응해주셔서 감사드립니다.