(30점만점)[빅데이터의 이해와 활용] 방송통신대 통계데이터과학과 중간과제물
혜쌤
다운로드
장바구니
과제정보
학과 | 컴퓨터과학과, 통계·데이터과학과 | 학년 | 2학년 |
---|---|---|---|
과목명 | 빅데이터의이해와활용 | 자료 | 11건 |
공통 |
(1) 다음을 정리하여 서술하시오. (8점)
①데이터과학자 ②빅데이터 확산 배경 (2) 네이버 검색어트렌드를 이용하여 COVID-19 전 후의 우리나라의 변화를 파악하려고 한다. 검색 주제어 2개를 찾고, 이를 성별 또는 연령별(둘중 ...
(1) 다음을 정리하여 서술하시오. (8점)
①데이터과학자 ②빅데이터 확산 배경 (2) 네이버 검색어트렌드를 이용하여 COVID-19 전 후의 우리나라의 변화를 파악하려고 한다. 검색 주제어 2개를 찾고, 이를 성별 또는 연령별(둘중 하나만 하면 됨) 그래프로 비교한 후, 의미 있는 결론을 도출하여 기술하시오. (주제어 내 키워드는 의미 있는 여러 개 지정할 수 있음) (10점). (3) 다음을 기술하시오. (12점) ① 구글 Ngram Viewer를 이용하여 1900년대 이후 최근까지 관련 있는 키워드(영어) 3개를 찾아 그래프로 정리하고, 의미를 쓰시오. ② ①과 동일한 키워드(영어) 3개를 구글 트렌드에서 찾아 2004년 이후 그래프로 정리하고, 의미를 쓰시오. ③ ①의 결과와 ②의 결과를 동일 기간에 대해 비교해서 기술하시오. |
소개글
방송통신대 통계데이터과학과 2학년 2학기 과목인 [빅데이터의 이해와 활용]의 중간과제물입니다.학교 홈페이지 자료실에서 제공하는 공식 중간과제물 서식을 활용하였으며
만점(30/30) 받은 자료이지만, 표절에 걸릴 수 있으니 꼭 내용 변형해서 제출하시기 바랍니다.
목차
(1) 다음을 정리하여 서술하시오. (8점)① 데이터과학자
② 빅데이터 확산 배경
(2) 네이버 검색어트렌드를 이용하여 COVID-19 전 후의 우리나라의 변화를 파악하려고 한다. 검색 주제어 2개를 찾고, 이를 성별 또는 연령별(둘중 하나만 하면 됨) 그래프로 비교한 후, 의미 있는 결론을 도출하여 기술하시오. (주제어 내 키워드는 의미 있는 여러 개 지정할 수 있음) (10점).
(3) 다음을 기술하시오. (12점)
① 구글 Ngram Viewer를 이용하여 1900년대 이후 최근까지 관련 있는 키워드(영어) 3개를 찾아 그래프로 정리하고, 의미를 쓰시오.
② ①과 동일한 키워드(영어) 3개를 구글 트렌드에서 찾아 2004년 이후 그래프로 정리하고, 의미를 쓰시오.
③ ①의 결과와 ②의 결과를 동일 기간에 대해 비교해서 기술하시오.
본문내용
(1)①
데이터과학은 수학/통계학적 지식과 코딩 기술, 특정 분야의 전문지식이 종합된 분야를 말하며, 데이터과학자는 특정 분야 전문지식을 바탕으로 데이터를 수집/저장/가공하고, 데이터를 결합/분석하여 새로운 가치를 창출해 낸다. 즉, 빅데이터로부터 인사이트(insight)를 추출해내는 것이다.
데이터과학자의 역할을 적절하게 수행하기 위해서는 다양한 역량이 필요한데, 이 역량들을 크게 두가지로 ‘하드 스킬’과 ‘소프트 스킬’로 나누어 설명할 수 있다. 객관적이며 측정 가능한 기술인 ‘하드 스킬’은 이론/기술적 지식을 말한다. C, Python, R과 같은 프로그래밍 언어와 통계학, 딥러닝, 머신 러닝 등을 예로 들 수 있다. ‘소프트 스킬’은 통찰력, 스토리텔링, 전달 능력, 커뮤니케이션과 협업 능력 등의 눈에 보이지 않는 인적 기술을 말한다.
②
2007년, 애플의 아이폰 출시를 시작으로 인터넷과 소셜미디어, IoT 등을 통해 생성되는 데이터가 폭발적으로 증가했다. 휴대폰의 전원을 켜는 그 순간부터 실시간으로 위치 데이터가 생성되고, 통화와 문자, 앱 사용 내역이 데이터화 되며, 차를 타고 이동해도 네비게이션을 통해 위치와 속도 데이터가 생성된다. 편의점에 들러 물건을 사고, 병원을 가고, 온라인 쇼핑을 하는 등의 우리가 매일매일 하는 일상 속 모든 행위가 데이터가 된다. 빅데이터는 우리가 체감하는 것 이상으로 우리 삶에 밀접하게 맞닿아 있고, 지금 이 순간에도 폭발적으로 많은 데이터를 생성하며 살아가고 있다.
또 다른 배경으로는, 컴퓨터의 계산 능력이 획기적으로 향상되었으며 머신 러닝 알고리즘도 고도화되었다는 점이다. 특히 IT의 발전으로 데이터의 분산화와 계산의 병렬화가 가능해지면서 대량의 데이터를 효율적이고 빠른 방식으로 처리할 수 있게 되었다. 분산화는 데이터를 한군데에 모아두지 않고 여러 개의 컴퓨터에 분산 저장하는 것을 말하며, 이를 클라우드라고 한다. 병렬화는 여러 대의 CPU로 나누어 계산하는 것으로 빅데이터 분석에 소요되는 시간을 획기적으로 줄일 수 있다.
참고 자료
조성준, 서가명강 06 - 세상을 읽는 새로운 언어, 빅데이터 (21세기북스, 2019), 9.이종섭, 문석재. (2021). 빅데이터 분석을 이용한 포스트 COVID 시대의 여행 스트레스 연관 키워드 분석에 관한 연구. 융복합지식학회논문지, 9(4), 87-94.
문송희, “코로나19 이후의 K뷰티 미래와 방향성”, 월간경제, 2023년 3월 2일, http://www.economicmagazine.co.kr/news/articleView.html?idxno=1026