비정형데이터분석 중간과제물 (2023, 만점)
문서 내 토픽
  • 1. 개인정보, 가명정보, 익명정보
    개인정보는 생존하는 개인에 관한 정보로서 성명, 주민등록번호 등에 의해 개인을 식별할 수 있는 정보를 의미한다. 가명정보는 개인정보에 속하지만 개인의 동의 없이 활용이 가능한 정보로, 개인을 식별할 수 있는 정보를 마스킹하거나 범주화하여 제공한다. 익명정보는 개인을 식별할 수 없는 수준으로 정보를 변경한 것을 의미한다. 가명정보 활용이 개인정보 보호 측면에서 주의가 필요한데, 가명정보도 추가 정보가 있으면 개인을 식별할 수 있기 때문이다.
  • 2. 비정형데이터 분석의 중요성
    빅데이터 시대에 접어들면서 비정형데이터가 전체 데이터의 70% 이상을 차지하게 되었다. 비정형데이터는 텍스트, 이미지, 영상 등 구조화되지 않은 데이터로, 기존 정형데이터 분석 방식으로는 분석이 어렵다. 비정형데이터 분석의 어려움으로는 분석 도구의 신뢰성, 수집 데이터의 편향성, 개인정보 관련 문제 등이 있다. 이를 해결하기 위해 분석 도구 검증, 다양한 분석 방법 활용, 개인정보 보호 규제 준수 등의 노력이 필요하다.
  • 3. 맵리듀스 과정
    맵리듀스는 빅데이터를 분산 처리하기 위한 프로그래밍 모델로, Input-Splitting-Mapping-Shuffling-Reducing-Output 순으로 진행된다. 입력 데이터를 Splitting 단계에서 세 단어씩 나누고, Mapping 단계에서 키-값 쌍으로 변환한다. Shuffling 단계에서 키별로 값을 정렬하고 중복을 제거하며, Reducing 단계에서 키별 값을 합산한다. 최종적으로 Output 단계에서 결과를 출력한다.
  • 4. 웹 페이지 텍스트 추출
    R의 'rvest' 및 'dplyr' 패키지를 활용하여 네이버 뉴스 웹페이지에서 텍스트 데이터를 추출하였다. read_html() 함수로 웹페이지를 읽어오고, html_nodes() 함수로 특정 클래스의 요소를 선택한 뒤, html_text() 함수로 텍스트를 추출하였다. 이를 통해 2023년 9월 19일 기준 네이버 뉴스 페이지의 최신 기사 내용을 확인할 수 있었다.
Easy AI와 토픽 톺아보기
  • 1. 개인정보, 가명정보, 익명정보
    개인정보, 가명정보, 익명정보는 데이터 활용에 있어 매우 중요한 개념입니다. 개인정보는 개인을 식별할 수 있는 정보로, 이를 보호하는 것은 개인의 기본적 권리입니다. 가명정보는 개인을 식별할 수 없도록 처리된 정보로, 개인정보 보호와 데이터 활용의 균형을 이루는 방법입니다. 익명정보는 개인을 식별할 수 없는 정보로, 개인정보 보호법의 적용을 받지 않아 데이터 활용에 유리합니다. 이 세 가지 개념은 데이터 활용에 있어 중요한 고려사항이 되며, 이를 균형있게 적용하는 것이 중요합니다.
  • 2. 비정형데이터 분석의 중요성
    비정형데이터 분석은 데이터 활용에 있어 매우 중요한 부분입니다. 기존의 정형데이터 분석은 구조화된 데이터에 국한되었지만, 비정형데이터 분석은 텍스트, 이미지, 영상 등 다양한 형태의 데이터를 활용할 수 있습니다. 이를 통해 보다 풍부한 정보를 얻을 수 있으며, 새로운 통찰과 가치를 창출할 수 있습니다. 특히 최근 데이터의 양이 급격히 증가하면서 비정형데이터 분석의 중요성이 더욱 부각되고 있습니다. 따라서 기업과 기관은 비정형데이터 분석 역량을 강화하여 데이터 기반 의사결정을 내릴 수 있어야 합니다.
  • 3. 맵리듀스 과정
    맵리듀스는 대용량 데이터 처리를 위한 분산 처리 프레임워크입니다. 맵리듀스 과정은 크게 맵(Map)과 리듀스(Reduce)의 두 단계로 구성됩니다. 맵 단계에서는 입력 데이터를 키-값 쌍으로 변환하고, 리듀스 단계에서는 맵 단계의 출력을 집계하여 최종 결과를 도출합니다. 이 과정을 통해 대용량 데이터를 병렬 처리할 수 있으며, 장애 허용성과 확장성이 뛰어납니다. 맵리듀스는 빅데이터 처리, 기계 학습, 자연어 처리 등 다양한 분야에서 활용되고 있으며, 데이터 처리 효율성 향상에 크게 기여하고 있습니다.
  • 4. 웹 페이지 텍스트 추출
    웹 페이지 텍스트 추출은 웹 페이지에서 유의미한 텍스트 정보를 추출하는 기술입니다. 이는 웹 페이지 분석, 검색 엔진 최적화, 데이터 마이닝 등 다양한 분야에서 활용될 수 있습니다. 웹 페이지 텍스트 추출 기술은 HTML 구조 분석, 텍스트 영역 탐지, 불필요한 텍스트 제거 등의 과정을 거치며, 최근에는 머신러닝 기술을 활용하여 정확도를 높이고 있습니다. 웹 페이지 텍스트 추출은 데이터 활용 측면에서 매우 중요한 기술이며, 향후 자연어 처리, 정보 검색, 데이터 마이닝 등 다양한 분야에서 더욱 발전할 것으로 기대됩니다.
비정형데이터분석 중간과제물 (2023, 만점)
본 내용은 원문 자료의 일부 인용된 것입니다.
2024.03.04