비정형데이터분석 중간과제물 (2023, 만점)
올티비
다운로드
장바구니
과제정보
학과 | 통계·데이터과학과 | 학년 | 4학년 |
---|---|---|---|
과목명 | 비정형데이터분석 | 자료 | 2건 |
공통 |
1. 개인정보, 가명정보, 익명정보의 개념을 약술하고 각 개념에 대해 구체적인 (교재 외의 독창적인) 사례를 들어 설명하시오. 또한 가명정보 활용이 개인에게 미치는 영향에 관해 개인정보 보호의 입장에서 논하시오. (9점)
2. 빅...
1. 개인정보, 가명정보, 익명정보의 개념을 약술하고 각 개념에 대해 구체적인 (교재 외의 독창적인) 사례를 들어 설명하시오. 또한 가명정보 활용이 개인에게 미치는 영향에 관해 개인정보 보호의 입장에서 논하시오. (9점)
2. 빅데이터 시대에 접어들어 비정형데이터 분석의 중요성이 부각되는 이유는 무엇인지 기술하고 자신이 비정형데이터 분석자라고 가정할 때, 어떠한 어려움이 예상되며 어떤 해결책을 제시할 수 있을지 (독창적으로) 논하시오. (9점) 3. 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자. 이 데이터가 맵리듀스 과정의 input 데이터라면 이후의 맵리듀스 과정은 어떻게 진행될 것인지 단계별로 도시하고 설명하시오. (단, Splitting 단계에서는 문장구조에 상관없이 첫 단어부터 시작하여 세 단어씩 나누어진다고 가정하고 대소문자는 구별하지 않음) (6점) <보기> This is a difficult problem of text mining algorithm This example is difficult The next problem is more difficult than this 4. R의 ‘rvest’ 및 ‘dplyr’ 패키지를 이용하여 웹페이지(교재 사례 외)의 텍스트를 읽어오는 코드를 작성하고 실행결과를 제시하시오. 단, 과제 작성일을 명시하고 당일 최신 갱신된 웹페이지의 내용을 읽어와야 합니다. (6점) |
소개글
"비정형데이터분석 중간과제물 (2023, 만점)"에 대한 내용입니다.목차
1. 개인정보, 가명정보, 익명정보의 개념을 약술하고 각 개념에 대해 구체적인 (교재 외의 독창적인) 사례를 들어 설명하시오. 또한 가명정보 활용이 개인에게 미치는 영향에 관해 개인정보 보호의 입장에서 논하시오. (9점)2. 빅데이터 시대에 접어들어 비정형데이터 분석의 중요성이 부각되는 이유는 무엇인지 기술하고 자신이 비정형데이터 분석자라고 가정할 때, 어떠한 어려움이 예상되며 어떤 해결책을 제시할 수 있을지 (독창적으로) 논하시오. (9점)
3. 다음 <보기>와 같은 텍스트 데이터가 존재한다고 가정하자. 이 데이터가 맵리듀스 과정의 input 데이터라면 이후의 맵리듀스 과정은 어떻게 진행될 것인지 단계별로 설명하시오. (단, Splitting 단계에서는 문장구조에 상관없이 첫 단어부터 시작하여 세 단어씩 나누어진다고 가정하고 대소문자는 구별하지 않음) (6점)
4. R의 ‘rvest’ 및 ‘dplyr’ 패키지를 이용하여 웹페이지(교재 사례 외)의 텍스트를 읽어오는 코드를 작성하고 실행결과를 제시하시오. 단, 과제 작성일을 명시하고 당일 최신 갱신된 웹페이지의 내용을 읽어와야 합니다. (6점)
본문내용
1. 개인정보, 가명정보, 익명정보의 개념을 약술하고 각 개념에 대해 구체적인 (교재 외의 독창적인) 사례를 들어 설명하시오. 또한 가명정보 활용이 개인에게 미치는 영향에 관해 개인정보 보호의 입장에서 논하시오. (9점)빅데이터 시대에 들어서면서, 컴퓨터 없이는 처리할 수 없을 정도의 데이터들이 매일 생성되고 있다. 여기에는 우리가 일상생활에서 흔히 접할 수 있는 웹사이트에 가입하기 위해 본인이 작성한 생년월일이나, 이름, 주소 같은 데이터 같은 것이 개인정보에 포함된다.
국방과학기술용어사전 에 따르면, 개인정보(Personal Data)는 ‘생존하는 개인에 관한 정보로서 성명, 주민등록번호 등에 의해 개인을 식별할 수 있는 정보’로 정의된다. 여기에 추가로 ‘특정 정보만으로 식별할 수 없어도, 다른 정보와 결합하여 식별할 수 있는 특성’이 개인정보 정의에 포함된다. 여기서 중요하게 볼 점은 ‘식별할 수 있는 정보’라고 생각한다. 개인과 관련된 정보는 특정한 질병의 유무, 검진 결과 등 민감한 정보들이 대다수 포함된다. 민감하다는 것은 특정 개인을 ‘식별할 수 있는’ 데이터이기 때문이다. 이러한 점에서 개인정보는 개인과 관련된 모든 민감한 데이터라고도 정의할 수 있다.
가명정보는 데이터 3법이 개정되면서 등장한 용어이다(과학기술정보통신부, 2023 ). 가명정보는 개인정보에 속하지만, 기존 개인정보와 달리 개인의 동의 없이 활용이 가능한 개인정보를 의미한다.
참고 자료
장영재 외. 2020. 비정형데이터분석. 한국방송통신대학교출판문화원.윤혜선. 2018. “빅데이터 규제의 새로운 패러다임 모색을 위한 연구”. 경제규제와법 제11권 제1호 pp.71~94.
강지원 외. 2021. “빅데이터를 활용한 식품 유통 플랫폼에 대한 소비자 인식 분석: 텍스트 마이닝과 의미연결망 분석을 중심으로”. 호텔경영학연구 Vol.30 pp. 37~52.
전용수 외. 2018. “공공기관 비정형 빅데이터 분석을 위한 주요분석 기법연구”. 한국IT정책경영학회 논문지 Vol.10 No.05
국방과학기술용어사전-개인정보, 2021, 국방기술진흥연구소, https://terms.naver.com/entry.naver?docId=2752363&cid=50307&categoryId=50307
가명정보와 익명정보의 차이, 2023, 과학기술정보통신부 블로그, https://blog.naver.com/with_msip/223202741991
네이버 뉴스, news.naver.com