2021-1학기 데이터시각화 기말과제
- 최초 등록일
- 2022.06.27
- 최종 저작일
- 2021.06
- 7페이지/ MS 워드
- 가격 3,500원
소개글
"2021-1학기 데이터시각화 기말과제"에 대한 내용입니다.
목차
1. 런던 콜레라 지도(교재 p.4)를 조사하고 데이터 시각화의 필요성을 설명하시오.(10점)
2. 아름답고 의미 있는 데이터 시각화 사례를 발굴하고 그 이유를 정리하시오.(10점)
3. 버클리대학 입학 자료(R에 내장된 데이터 UCBAdmissions, 교재 p.94 연습문제 3번 참조)를 바탕으로 버클리대학 입시에 성차별이 있었는지를 시각화를 통해 탐구하고 설명하시오.(25점)
4. R 패키지 “coronavirus”에 내장된 coronavirus 데이터셋을 이용하여, 2020년 1월 22일부터 2021년 1월 21일까지 우리나라의 일일 코로나19 확진자 수의 변화를 시각화하시오.
본문내용
1854년 8월 28일 영국의 수도 런던의 브로드 가에서 9월까지 616명의 목숨을 앗아간 ‘브로드 가 콜레라 유행’이 발생하였다. 콜레라의 가장 특징적인 증상은 설사이며 제대로 치료받지 않으면 사망률이 50%가 넘는 무서운 전염병이다. 그때까지만 해도 의학계를 지배하는 이론은 나쁜 공기가 전염병의 원인이라는 ‘장기설(miasma theory)’이었다. 그러나 의사 존 스노는 시궁창과 악취가 콜레라의 원인이라 여기는 공기 탓 이론이 우세했지만, 상수도(上水道) 회사들을 눈여겨 보았다.
스노는 정기적으로 발간되는 파(William Farr)의 사망 통계를 확인했고, 1854년 8월 31일부터 9월 2일까지 소호에서 사망한 83명의 통계 속에 등장하는 사망자의 주소부터 확인하고 현장으로 나갔다. 사망자들은 ‘브로드 가 펌프(Broad Street Pump)’에 몰려 있었으며, 다른 곳에도 펌프가 있고 펌프 주변 거주자의 사망 사례들도 있었지만 산발적이었다. 하지만 브로드 가 펌프 주변에서 죽은 사람들은 펌프에서 빙둘러 보면 한눈에 보이는 집에서 죽었음을 확인하였다.
스노는 지도를 제작하였으며, 지도에는 하수도관이나 페스트 묘지 대신 펌프가 표시되어 있고, 사망자의 수를 역시 블록으로 표시했다. 사망자가 많을수록 블록이 두터워, 최대 피해 지역이 어디인지 한눈에 알 수 있게 했다. 이것이 그 유명한 스노의 ‘콜레라 지도’이다.
당시 스노는 콜레라균을 눈으로 볼 수 없었다. 다만 사망한 결과를 통해서 특이적인 결과를 유추하고, 원인이었던 펌프를 폐쇄함으로서 콜레라의 기세를 꺾을 수 있었다. 이 사건은 현재까지도 데이터 시각화의 고전이며, 현대 역학의 토대라고 불려지고 있다. 그만큼 데이터 시각화는 중요하다.
참고 자료
ggplot2 - Using Dates an an Axis(시계열 축 사용하기) (https://m.blog.naver.com/PostView.naver?blogId=edgelab&logNo=150188153303&proxyReferer=https:%2F%2Fwww.google.com%2F)
R - dplyr – filter
https://m.blog.naver.com/PostView.naver?blogId=coder1252&logNo=221007649317&proxyReferer=https:%2F%2Fwww.google.com%2F
시사저널 “최악의 코로나19 4차 대유행 온다”
http://www.sisajournal.com/news/articleView.html?idxno=212069