2022년도 1학기 과제물교과목명 :데이터 시각화학 번 :성 명 :연 락 처 :1. COVID-19 관련 데이터 시각화의 국내외 사례 3개를 찾고 비교하여 정리하시오. (6점)코로나19 관련 데이터 시각화 사례를 비교하기 위하여 ‘신규 확진자 수’ 등에 관한 국내외 시각화 자료 3건을 수집하였다.첫 번째 사례로 국내 뉴스통신사인 ‘뉴시스’의 시각화 자료를 선정하였다. 우선 동 자료에서는 일일 신규 확진자 수를 시계열에 따라 꺾은선 그래프로 나타내고 있다. 우리나라의 경우 2022년 2월 하순경부터 가파른 확진자 급증을 보였으며, 약 62만 명의 점정을 찍은 이후 큰 변동폭을 보이며 하락 국면을 향하여 가고 있는 것을 확인할 수 있다.단, 신규 확진자 수와 더불어 좌측에 △위중증 병상 가동률, △확진 연령대, △재택 치료자, △사망자 등 부수적인 시각화 자료를 함께 제시하고 있으나 동 시각 자료가 왜 함께 제시되었는지 필요성에 의문이 생기게 되며, 특히 ‘사망자 추이’의 경우 신규 확진자 수와 동일한 기간을 설정하고 있지 않아 두 그래프를 연관 지어 의미를 찾기 어려웠다. 사망자 수를 신규 확진자 수와 같은 그래프에서 막대그래프 등으로 표시하였다면 보다 명확히 의미를 파악하는 데 용이하였을 것으로 보인다.두 번째 사례로 일본 뉴스통신사인 ‘NHK’의 시각화 자료를 선정하였다. 동 자료에서는 신규 확진자 수를 간략히 표시한 지도 위에 수치로 표시하였다. 상단에는 전국 신규감염자 수 및 누적감염자 수, 사망자 수 등을 표시하여 한눈에 감염 상황을 확인할 수 있었다.단, 해당 자료에서는 단순히 확진자 수를 보여주는 데 그쳐 어느 지역이 상대적으로 심각한 상황에 있는지 한눈에 알아보기 어렵다. 확진자 수를 일정 단위로 쪼개어 색으로 구분하는 등의 추가적인 표시가 있었다면 자료를 해석하는 데 더욱 용이하였을 것으로 보인다.마지막 사례로 ‘Financial Times(FT)’의 시각화 자료를 선정하였다. 동 자료는 전세계 코로나19로 인한 사망자 수를 시계열 자료로 표시하는 한변, 지역별로 색으로 구분하여 어느 지역에서 많은 사망자가 나왔는지 한눈에 알아보기 쉽게 하였다.단, 각 지역별로 정확한 수치를 파악하기 어려운 면이 없지 않아 있으며, 특히 오세아니아의 경우 거의 실선 표기에 그치고 있기 때문에 정확한 비중을 알기 어렵다. 아울러 일부 지역의 경우 ‘Rest of’으로 뭉뚱그려 나누고 있는데 해당 구분에 어떤 국가가 포함되는지 정확히 알 수 없어 아쉬움이 남는다. 보다 정확한 자료 파악을 위해 지역별 구분 기준을 표시하고 현 시점 총 사망자 수와 각 지역별 사망자 수를 수치화하여 제시하였다면 더욱 이해하기 쉬웠을 것이다.총 세 개의 자료를 통해 코로나19라는 동일한 주제를 가지고 다양한 도표를 통해 자료를 전달할 수 있다는 점을 알 수 있었다. 코로나19는 현재 전세계적으로 확산되고 있는 질병인 바, 시계열을 통한 자료 제시가 제일 효율적인 것으로 보이며, 지엽적인 분석을 위해 NHK의 사례와 같이 지도를 활용하는 등의 다양한 응용법이 기대된다.2. 한스 로즈링의 TED강의를 보고 데이터 시각화의 역할 등 느낀 점을 1페이지 이내로 정리하시오. (6점)로즈링 교수는 강의 시작에 매우 흥미로운 질문을 던진다. 선진국과 개발도상국 구분에 있어서 우리의 ‘사고방식(mindset)’과 실제 데이터가 일치하는지에 대한 질문이었다. 우리나라가 이제 선진국 반열에 들어섰다는 평가를 받듯이 많은 나라들이 끊임없이 경제적 발전을 추구하고 있으며 괄목할 만한 성장을 이룬 국가도 적지 않다. 그렇지만 실제 그 국가들이 소위 선진국으로 분류되는 국가들과 견주었을 때 얼마나 성장을 이루었는지는 자신 있게 말할 수 있는 사람은 적을 것이다.이에 대한 해답으로 로즈링 교수는 다양한 시계열 자료를 활용하고 있다. 일례로 GDP 대비 기대수명, 국가별 소득 분포 등 자료를 제시한다. 활용된 자료의 대부분은 국가 또는 지역권을 원으로 표시하고 시간에 따라 어느 위치에 있는지 영상으로 보여주고 있다. 교수가 제공하는 도표는 필요한 정보만 담아 매우 단순하고 직관적이어서 한 눈에 무엇을 말하고자 하는지 바로 파악할 수 있었다.교수가 말하고자 하는 바를 시각적 자료 없이 모두 구두 설명을 하였다면 어땠을까? 아마 강의시간은 20분이 아니라 60분이어도 모자랐을지도 모른다. 청자는 지금 설명하는 수치가 미국에 대한 것인지, 아니면 중국에 대한 것인지 헷갈려할지도 모른다.데이터의 시각화는 이러한 문제를 해결하기 위해 필연적으로 필요하다. 화자가 전달하는 바를 효과적이고 효율적으로 나타내기 위함도 있으나, 청자 입자에서도 보다 직관적이고 빠르게 이해할 수 있기 때문에 시각화 자료는 매우 중요하다.아울러 같은 데이터라도 어떻게 제시할 것인지에 따라서도 그 영향력은 달라질 수 있다. 전달하고자 하는 바를 어떤 형태로 청자에게 제시할 것인지 많은 연구와 고민이 필요하다.3. R의 datarium 패키지에 내장된 marketing 데이터셋은 광고 미디어에 사용한 비용과 판매액의 데이터이다. facebook 컬럼은 facebook 광고비로 사용한 금액이고, sales 컬럼은 판매액이다. facebook을 x축, sales를 y축으로 하는 산점도를 그리시오. facebook을 독립변수, sales를 종속변수로 하는 회귀직선을 산점도 위에 그리시오. 산점도의 제목으로 본인의 학번을 출력하시오. (9점)datarium 패키지를 이용하기 위해 install.packages를 활용해 설치하였다. 동 페이지 중 marketing 데이터를 불러온 결과 ‘youtube’, ‘facebook’, ‘newspaper’, ‘sales’ 항목을 확인할 수 있었다. facebook과 sales에 관한 산점도를 그리기 위해 plot 함수를 사용하였으며, 그 위에 두 변수에 대한 회귀직선을 그리기 위해 lm 함수를 통해 회귀선을 구하고, abline 함수를 통해 회귀직선을 산점도 위에 그렸다.
2022년도 1학기 과제물교과목명 :통계패키지학 번 :성 명 :연 락 처 :1. SPSS를 이용하여 작성하시오. (1) 교재 5장 연습문제 7번진천선수촌에서 올림픽에 대비하여 연습하고 있는 육상선수 중에서 25명을 뽑아 체격과 50m 달리기 기록을 수집하여 보니 다음과 같았다. 성별은 (1) 남자, (2) 여자이고, 키와 하체길이는 cm로, 체중은 kg으로, 50m 달리기는 초 단위로 측정한 것이다.가. 체중의 줄기-잎 그림과 히스토그램을 그리고 설명하라.‘줄기-잎 그림’을 통해서는 데이터의 분포를 쉽게 파악할 수 있으면서 각 값을 바로 확인할 수 있다는 특징을 갖고 있다.성별 관계없이 25명의 체중에 대한 줄기-잎 그림은 아래와 같다. 그림을 보면 줄기 가운데 6에 많은 수가 분포되어 있음을 확인할 수 있다. 즉, 60kg대의 사람이 총 10명으로 가장 많다는 것을 한눈에 알 수 있다.해당 자료를 히스토그램으로 나타내면 보다 명확하게 자료의 분포를 확인할 수 있다. 다만 히스토그램은 줄기-잎 그림과 다르게 개별 데이터 수치는 파악이 안 된다는 단점을 갖고 있다. 히스토그램 결과는 아래와 같으며, 상기 줄기-잎 그림에서도 언급하였듯이 60kg대의 사람이 총 10명으로 확인되는 것을 한눈에 파악할 수 있다. 아울러 90kg대 1건이 동떨어져 존재하는 것을 쉽게 알 수 있다.나. 남자와 여자별로 키, 하체길이, 체중, 50m 달리기의 상자그림을 그리고 비교하라.첫 번째로 키에 대한 상자그림을 보면 상자의 위치를 통해 대다수의 남성(숫자1 표기)이 여성(숫자2 표기)보다 큰 것을 파악할 수 있다. 아울러 상자의 길이를 통해 남성의 경우 널리 퍼진 분포를 보인다. 실선으로 표시된 중앙값을 미루어 볼 때 남성의 경우 하단에 치우친 것을 볼 수 있는데 이를 통해 상당수의 남성의 키가 175cm 이상인 것을 알 수 있다.두 번째로 하체길이에 대한 상자그림을 보면 키와 마찬가지로 남성이 여성보다 상대적으로 높은 수치를 보이는 것을 알 수 있다. 하지만 키와 비교하였을 때 차이가 크지 않아 여성이 키에 비해 상대적으로 하체 길이가 길다는 것을 알 수 있다. 한편, 상자의 길이를 비교하였을 때 남성은 여성에 비해 매우 분포가 분산되어 있는 것을 볼 수 있다. 특히 남성의 경우 중위값이 상단에 치우쳐 있는 것을 미루어보아 상당수 남성의 하체길이가 100cm 이하에 분포한다는 것을 알 수 있다.세 번째로 체중에 대한 상자그림을 보면 상자 위치를 볼 때 남성이 여성보다 상대적으로 체중이 더 나간다는 것을 확인할 수 있다. 상자길이도 남녀 모두 비슷해 비슷한 분포를 보이는 것을 알 수 있다. 다만 여성의 경우 중위값이 상단에 가까이 위치하는 것을 볼 때 상당수 여성의 체중이 60kg대 이하에 분포하는 것을 짐작할 수 있다.마지막으로 50m달리기에 대한 상자그림을 보면 상자 위치를 통해 남성이 여성보다 월등히 빠른 기록을 보이고 있다. 분포 측면에서 보았을 때 여성이 남성보다 기록의 범위가 좁은 것을 알 수 있다.(2) 교재 6장 연습문제 3~4번가. (3번) 어떤 화학약품의 제조에 상표가 다른 두 종류의 원료가 사용되고 있다. 각 원료에서 주성분 A의 함량은 다음과 같다. 단, 함량은 정규분포를 따른다고 가정한다. 이 두 원료의 주성분 A의 함량이 다른지 분석하라.두 원료의 주성분 A의 함량이 다른지 분석하기 위해 독립표본 t검정을 실시하였다. 아래 검정결과를 보면 유의확률은 0.844로 값이 크므로 두 원료의 분산이 동일하다는 가정을 기각할 수 없다. 그러므로 분산이 동일하다는 가정을 받아들이고 ‘등분산을 가정함’ 결과를 활용한다. t값 1.676에 대한 유의확률(양측)은 0.110으로 유의수준 0.05보다 크므로 두 원료의 모평균이 같다는 귀무가설(H0)을 기각할 수 없다.나. (4번) 특정 피임약이 사용자의 혈압을 저하시키는지 조사하고자 한다. 이를 위해 부인 15명을 대상으로 평상시 혈압을 측정한 뒤, 이들에게 이 피임약을 일정 기간 복용하게 한 후 이들의 혈압을 다시 측정한 결과를 기록했다. 얻어진 데이터는 다음과 같다. 피임약 복용이 혈압에 영향을 주는 분석하라.피임약이 혈압에 영향을 주는 지 분석하기 위해 대응표본 t검정을 실시하였다. 아래 검정결과를 보면 t값은 3.105이고 유의확률(양측)은 0.008이었다. 이는 유의수준 0.05보다 매우 작으므로 귀무가설(H0)을 기각한다. 즉, 피임약 복용은 혈압에 영향을 미친다고 판단할 수 있다.2. SAS를 이용하여 작성하시오. (1) 교재 8장 연습문제 5~6번가. (5번) 다음 데이터에서 X는 콩 10개의 수분 함유량을 나타내고, Y는 콩의 강도를 나타낸다.① X에 대한 Y의 회귀식을 구하라.회귀분석에 앞서 우선 콩의 수분 함유량(X)과 강도(Y) 간의 상관분석을 통해 어떤 관계에 있는지 확인한다. 산점도에서 두 변수가 음의 상관관계에 있는 것을 알 수 있으며, 도출된 상관계수도 약 ?0.759를 나타내는 바 산점도와 마찬가지로 음의 관계에 있는 것을 알 수 있다.이러한 상관계수를 바탕으로 두 변수 간의 어떤 함수식이 성립하는지 추정해보고자 한다. 두 변수는 선형 관계를 가지므로 다음과 같은 일차 함수 모형을 추정할 수 있다.hatY_{i} =hatb _{0} +hatb _{1} X _{i}여기서b_0은 절편을,b_{1}은 기울기를 의미한다. 절편과 기울기는 회귀분석 프로시저를 통해 파악할 수 있다. 프로그램을 작성하여 실행한 결과는 아래와 같다. 표 가운데 Parameter Estimates를 보면 절편(intercept)은 8.043(소수점 셋째짜리까지 반올림, 이하 계산에서도 동일)이며, 기울기(slope)는 ?0.624이다. 이것을 토대로 회귀식을 작성하면 다음과 같다.hat{Y}=8.043-0.624X② 잔차분석을 하라.회귀모형이 타당한지에 대해 검토가 필요한데 이를 위해 잔차(residual)를 활용한다. 타당성 검증은 크게 등분상선, 독립성, 정규성 등 세 가지로 판단한다. sas에서는 proc reg 명령을 통해 간단히 파악할 수 있다.먼저 등분산성은 설명변수를 가로축으로 하여 잔차를 세로축에 나타내는 그림을 통해 살펴본다. 잔차 그림은 아래와 같다. 잔차 그림이 어떤 형태나 추세 없이 랜덤하게 배치되어 있으면 등분산성을 충족하였다고 할 수 있다. 아래 그림을 미루어보았을 때 뚜렷한 형태가 보이지 않으므로 등분산성을 충족한다고 할 수 있다.독립성은 Durbin-Watson 검정 통계량을 사용해 파악할 수 있다. 여기서 D값이 2에 가까울수록 자기상관이 없어 독립성을 가진다고 할 수 있다. 위 모형에 대한 Durbin-Watson 검정 통계량은 아래와 같다. D값이 2.635이므로 독립성을 충족한다고 할 수 있다.
2021년도 2학기 과제물교과목명 :빅데이터의이해학 번 :성 명 :연 락 처 :1. 다음을 설명하시오. (1) 빅데이터의 출현 배경빅데이터는 기존 방식으로 수집, 관리 또는 분석이 어려운 방대한 양의 데데이터를 일컫는다. 단어 자체를 표면적으로 받아들이면 데이터 크기의 문제라고 유추하기 쉽지만, 그것만으로 빅데이터를 정의하기 어렵다. 좀 더 명확히 풀어 설명하자면 규모가 방대하며, 생산 주기가 짧고, 사진 및 영상 등 비정형적 데이터를 포함한다.이러한 빅데이터는 스마트폰, SNS, 사물인터넷 등에서 발생하는 비정형 데이터의 급증으로 출현하였다고 할 수 있다. 2020년 기준 인류가 생산한 모든 데이터의 합계는 약 59ZB에 달하는 것으로 보이며, 미국의 시장조사기관 IDC에 따르면 2025년에는 175ZB를 기록할 것으로 전망된다고 한다. ZB는 1조 GB에 해당하는 크기이다.최근에는 Z세대를 중심으로 이른바 짧은 동영상을 의미하는 ‘숏폼’ 콘텐츠가 인기를 누리며, 틱톡, 인스타그램 등 SNS를 중심으로 대량의 데이터가 발생하고 있다. 이러한 시대의 흐름도 빅데이터의 급증에 큰 영향을 미친다고 할 수 있다.(2) 데이터과학자최근에는 데이터과학자보다는 영문으로 ‘데이터 사이언티스트(Data Scientist)’라고 거론하는 경우가 많이 발견된다, 데이터 사이언티스트는 통계 또는 머신러닝을 활용하여 주어진 정보를 다각적으로 분석하고, 조직이 나아갈 방향을 제시하는 기획자라고 할 수 있다. 즉, 빅데이터 분석과 관련된 기술적 능력뿐만 아니라 분석 대상이 되는 정보를 정확히 이해하고, 이로부터 빅데이터 분석의 실마리가 되는 요소를 도출할 수 있는 능력을 갖추어야 한다.유사한 직군으로 정보를 추출하고 분석하는 ‘데이터 애널리스트’, 데이터 인프라 구축 등을 담당하는 ‘데이터 엔지니어’도 존재한다.2. 네이버 검색어트렌드를 이용하여 비교 가능한 검색 주제어 2개를 찾고, 이를 그래프로 비교한 후, 의미 있는 결론을 도출하여 기술하시오(주제어 내 키워드는 의미 있는 여러 개를 지정). 최근 OTT(Over-the-top media service) 서비스 플랫폼이 증가함에 따라 해외드라마를 매우 간편하게 볼 수 있는 환경이 되었다. 다양한 국가의 드라마 중에서 미국드라마와 중국드라마에 대한 키워드를 검색하여 보았다. 대체적으로 미드 또는 중드라고 축약하여 부르는 경우가 많으므로 세부 키워드로 함께 설정하였다. 검색 결과는 다음과 같다.동 검색은 2016년부터 현재까지의 결과를 바탕으로 한 것인데, 미국드라마에 대한 검색이 급격히 감소하고 있는 것을 볼 수 있다. 반면, 중국드라마의 경우 큰 고저를 보이지 않고 대체적으로 비슷한 수준인 것을 확인할 수 있다.미국드라마의 경우, 2016년과 2017년에 각각 급격한 상승을 보이는 지점이 있는데 이것은 국내에서 큰 인기를 끈 ‘워킹데드’(2016년), ‘왕좌의 게임 시즌7’(2017년)이 주요한 영향을 미쳤을 것으로 보인다.중국드라마의 경우, 2017년과 2018년에 유의미한 상승을 보였다. 이것은 중국에서 큰 화제가 되었던 판타지 로맨스 장르의 ‘삼생삼세십리도화’(2017년), ‘향밀침침신여상’(2018년) 등의 영향이 컸을 것으로 보인다.동 트렌드 검색 결과를 성별로 나누면 더 흥미로운 결과가 도출된다. 각 검색어를 성별로 나눈 검색은 아래와 같다. 남녀 모두 미국 드라마에 대한 관심도가 하락하는 모습은 동일하다. 하지만 중국드라마에서는 남녀가 매우 극명한 차이를 보이는 것을 볼 수 있다. 여성은 2017년을 기점으로 중국드라마에 대한 관심이 매우 증가한 것을 확인할 수 있으며 이는 앞서 언급한 ‘삼생삼세십리도화’ 등의 드라마의 영향이 컸을 것으로 보인다. 2017년을 시작으로 2018년 관심도는 최고치에 달한 것을 볼 수 있으며, 이후 중국드라마에 대한 관심도는 다소 하락한 것으로 보이나 미국드라마와 비교하였을 때, 상당히 높은 관심도가 유지되고 있다는 것을 짐작할 수 있다. 남성의 경우, 중국드라마에 대한 관심이 어느 시기와 관계없이 매우 저조한 것을 볼 수 있는데, 이것은 큰 화제를 몰았던 중국드라마가 로맨스 장르였던 것과도 연관이 있을 것으로 예상된다.3. 다음을 기술하시오. (1) 구글 Ngram을 이용하여 1900년대 이후 관련 있는 키워드(영어) 3개를 찾아 그래프로 정리하시오.최근 방탄소년단(BTS) 등 국내 아티스트들에 대한 세계적인 관심이 높아지면서 K-pop에 대한 관심도 매우 높아지고 있다. 이러한 흐름을 보다 자세히 알아보기 위해 같은 아시아권의 일본(J-pop), 중국(C-pop)과 함께 키워드 검색을 해보았다. 1900년부터 2019년까지의 검색 결과는 다음과 같다.* ngram 검색시 키워드에 ?가 들어갈 경우 오류가 발생, 편의상 ?를 제외하여 각각 kpop, jpop, cpop으로 검색하였음을 알린다.(2) (1)에서 찾은 동일 키워드(영어) 3개를 구글 트렌드에서 찾아 그래프를 정리하시오.구글트렌드의 경우, Ngram과 달리 2004년부터 현재까지의 검색을 지원한다. 상기 키워드에 대한 2004년부터 전세계 대상 검색 결과는 다음과 같다.(3) (1)의 결과와 (2)의 결과를 시간대별로 연계해서 종합적으로 의미를 찾아 기술하시오.Ngram과 구글 트렌드를 통해 K-pop에 대한 관심히 비약적으로 증가하였음을 알 수 있다. Ngram의 경우 2013년을 기준으로 2014년부터 급격한 증가세를 보인 반면, 구글 트렌드에서는 2010년부터 서서히 증가하기 시작하여 2014년부터 2019년까지는 완만히 증가하였다. 이후 2020년부터 큰 폭의 증가세를 기록하였다.한편, J-pop은 어느 곳에서도 큰 폭의 등락은 보이지 않았다. C-pop의 경우에는 구글 트렌드 기준 J-pop보다도 낮은 수준의 수치를 보였으나, Ngram에서는 1989년 등 특정 시기에 예상외의 높은 수치를 기록하였는데, 확인한 결과 동의어 CPOP(Community Patrol Officer Program)이 함께 검색되었기 때문인 것으로 판명되었다. 이러한 예외적인 결과를 제외한다면 C-pop에 대한 관심도도 J-pop과 마찬가지로 낮은 것을 확인할 수 있다.그렇다면 K-pop이 중국이나 일본과 비교했을 때, 큰 인기를 끌 수 있었던 비결은 무엇일까. 이에 대해 미국 워싱턴포스트는 K-pop의 성공 요인으로 중독성이 강한 노래와 춤, 그리고 SNS에 최적화된 현란한 뮤직비디오, 적극적인 팬덤 활동 등이 합쳐진 결과라고 분석했다.즉, K-pop의 성공 이면에는 SNS 등 인터넷 문화의 진보가 큰 영향을 미쳤음을 짐작할 수 있다. 음악적 퀄리티는 물론 아티스트의 해외 활동을 염두에 둔 적극적인 디지털 마케팅 등이 시너지를 발휘한 결과라고 할 수 있다.코로나19의 영향으로 아티스트들의 해외 진출에 많은 제약이 발생하고 있는 가운데 향후 K-pop이 오늘과 같은 높은 관심을 구가할 수 있을지는 얼마나 인터넷 매체를 잘 활용하는지에 달렸다고도 할 수 있다.4. 국내외 기업, 정부에서 빅데이터를 이용하여 얻은 최신 혁신성과 사례를 발굴하고 이를 정리하시오. (1) 인천시, 빅데이터 기반 안전시스템 구축인천광역시는 올해 4월 빅데이터를 기반으로 한 ‘야간골목길 안전시스템 구축 사업’을 완료하였다고 발표하였다. 동 시는 인천경찰청과 빅데이터 플랫폼 기업인 ‘모토브’와 협업하여 조도 및 유동인구 등 민간 데이터와 가로등 및 CCTV 위치 데이터 등 기관 데이터를 통합하고, 분석한 결과를 토대로 경찰의 순찰 우선순위를 추천하는 시스템을 구축하였다.