(방송대) 비정형데이터분석, 중간 과제물 (2022 2학기, 30점 만점, R코드있음)
참칰
다운로드
장바구니
과제정보
학과 | 통계·데이터과학과 | 학년 | 4학년 |
---|---|---|---|
과목명 | 비정형데이터분석 | 자료 | 3건 |
공통 |
1. 개인정보, 가명정보, 익명정보의 개념을 기술하고 각 개념에 대해 구체적인 (교재 외의) 사례를 들어 비교하고 설명하시오. (9점)
2. 빅데이터 시대에 접어들어 비정형데이터 분석의 중요성이 부각되는 이유는 무엇인지 기술하고 ...
1. 개인정보, 가명정보, 익명정보의 개념을 기술하고 각 개념에 대해 구체적인 (교재 외의) 사례를 들어 비교하고 설명하시오. (9점)
2. 빅데이터 시대에 접어들어 비정형데이터 분석의 중요성이 부각되는 이유는 무엇인지 기술하고 비정형데이터 분석 상 유의점에 대해 논하시오. (6점) 3. 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자. 이 데이터가 맵리듀스 과정의 input 데이터라면 이후의 맵리듀스 과정은 어떻게 진행될 것인지 단계별로 도시하고 설명하시오. (단, Splitting 단계에서는 문장구조에 상관없이 첫 단어부터 시작하여 세 단어씩 나누어진다고 가정) (9점) <보기> This is a simple example of text mining algorithm This example is easy The next example is more difficult than this 4. R의 ‘rvest’ 및 ‘dplyr’ 패키지를 이용하여 관심 있는 웹페이지(교재 사례 외)의 텍스트를 읽어오는 코드를 작성하고 실행결과를 제시하시오. (6점) |
소개글
"(방송대) 비정형데이터분석, 중간 과제물 (30점 만점, R코드있음)"에 대한 내용입니다.목차
1. 개인정보, 가명정보, 익명정보의 개념을 기술하고 각 개념에 대해 구체적인 (교재 외의) 사례를 들어 비교하고 설명하시오. (9점)2. 빅데이터 시대에 접어들어 비정형데이터 분석의 중요성이 부각되는 이유는 무엇인지 기술하고 비정형데이터 분석 상 유의점에 대해 논하시오. (6점)
3. 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자. 이 데이터가 맵리듀스 과정의 input 데이터라면 이후의 맵리듀스 과정은 어떻게 진행될 것인지 단계별로 도시하고 설명하시오. (단, Splitting 단계에서는 문장구조에 상관없이 첫 단어부터 시작하여 세 단어씩 나누어진다고 가정) (9점)
4. R의 ‘rvest’ 및 ‘dplyr’ 패키지를 이용하여 관심 있는 웹페이지(교재 사례 외)의 텍스트를 읽어오는 코드를 작성하고 실행결과를 제시하시오. (6점)
참고 문헌
본문내용
IT기술이 발전하면서 데이터를 생성하고 저장하는 양이 늘어났다. 또, 인터넷의 발달과 모바일 기기등의 발달로 사용자들 간 SNS를 통한 소통으로 과거와 달리 이미지, 영상, 음성 등의 형태가 다양한 데이터가 생성된다. 그 중 비정형 데이터는 트위터나 페이스북과 같은 SNS, 블로그, 카페, 유튜브 등의 매체를 통해 생성되는 사진, 동영상, 텍스트와 같은 데이터로 시장 조사 기관 IDC(International Data Corporation)에 의하면 전체 데이터의 80%이상을 비정형 데이터가 차지한다. 이러한 비정형 데이터 분석은 과거에는 분석하는 기법이 발달하지 않아 불가능한 것으로 여겨졌다. 그러나 오늘날 새로운 분석 방법들이 개발되고 지속적으로 개선되면서 비정형 데이터 분석이 가능해졌다. 정형 데이터의 경우 그 결과가 대체로 예상이 가능하지만, 형태가 일정하지 않고 가변적인 비정형 데이터는 분석 관점에 따라 해석이 달라질 수 있다. 이러한 특성으로 인해 비정형 데이터는 무한한 의미의 해석이 가능해지고 이를 통해 내재된 중요 정보를 발굴해 내는 등 정형 데이터는 갖지 못한 숨겨진 가치를 지니고 있다. 비정형 데이터에는 인물, 이슈 등에 대한 사람들의 의견이나 감정을 분석하는 오피니언 마이닝, 웹으로부터 유용한 정보를 추출하는 웹 마이닝, 문서로부터 의미있는 정보를 추출하는 텍스트 마이닝 등이 있다. 기존의 정형 데이터 분석으로는 수치를 통한 상황 분석만 가능했다. 그러나 비정형 데이터 분석 기술이 발전하면서 우리가 일상생활에서 사용하는 자연어 처리가 가능해져 텍스트나 언어로부터 사람들의 생각이나 감정을 읽을 수 있다. 이를 통해 겉으로 보여지는 상황 뿐만 아니라 상황에 대한 내재적 원인까지 심도깊게 분석할 수 있다. 이러한 이유 때문에 빅데이터 시대에 접어든 오늘날 비정형 데이터 분석의 중요성이 더욱 강조되고 있다.참고 자료
장영재, 손원, 황희진 (2020). 비정형 데이터 분석. 서울 : 한국방송통신대학교 출판문화원.가명정보 처리 가이드라인(2020). 개인정보보호위원회.
개인정보보호법.
법무법인 디라이트(2021.1.18.). 가명/익명정보의 활용. Best Practice. https://ppss.kr/archives/233844.
김도연(2020). 모두의 R 데이터 분석. 서울 : 길벗.
이문기(2018.07.23.). “비정형 빅데이터 분석, 기업 경쟁력 확보 지름길”. DATANET, https://www.datanet.co.kr/news/articleView.html?idxno=124824.
이건한(2019.07.04.). 빅데이터, ‘눈에 보이지 않는 가치를 발굴하라’. 테크월드온라인뉴스. https://www.epnc.co.kr/news/articleView.html?idxno=91021.