• AI글쓰기 2.1 업데이트
  • AI글쓰기 2.1 업데이트
  • AI글쓰기 2.1 업데이트
  • AI글쓰기 2.1 업데이트
BRONZE
BRONZE 등급의 판매자 자료

[70점 만점] 비정형 데이터 분석 기말 과제물

"[70점 만점] 비정형 데이터 분석 기말 과제물"에 대한 내용입니다.
12 페이지
어도비 PDF
최초등록일 2021.08.27 최종저작일 2020.11
12P 미리보기
[70점 만점] 비정형 데이터 분석 기말 과제물
  • 미리보기

    소개

    "[70점 만점] 비정형 데이터 분석 기말 과제물"에 대한 내용입니다.

    목차

    1. 맵리듀스의 주요 내용을 약술하고, 이 방식이 중요 요소로 손꼽히게 된 이유를 빅데이터의 특징과 연관지어 설명하시오.

    2. 프로그래밍 언어 중 인터프리터 방식 언어의 특징을 컴파일 방식과 비교하여 설명하시오.

    3. UCI Machine Learning Repository 에서 텍스트 데이터 세트 하나를 다운로드 하고 그 특징을 요약하여 기술하시오.

    4. 텍스트 데이터의 분석을 위한 기본 가설에 대해 설명하시오

    5. R 을 이용하여 로빈슨 크루소 각 장별 텍스트 데이터를 분석하시오. 분석은 강의 및 교재를 참고하되 다음의 절차를 따르시오.
    1) 자신의 학번 끝번호를 3 으로 나누고 나머지를 구하시오.
    2) 나머지가 0 인 경우 제 2 장과 제 5 장, 1 인 경우 제 4 장과 제 6 장, 2 인 경우 제 5 장과 제 7 장을 선택하여 각각 불러들이시오.
    3) 불러들인 두 챕터의 텍스트 데이터 전처리를 수행하시오.
    4) 탐색적 자료분석을 통해 선택한 두 챕터를 비교하시오.
    5) 단어빈도, 문서빈도, 장서빈도의 정의를 기술하시오.
    6) 코사인 유사도의 정의를 기술하고 선택한 두 챕터의 코사인 유사도를 구하시오.

    본문내용

    [ 맵리듀스가 중요 요소로 손꼽히게 된 이유 ]
    과거의 데이터 처리 및 저장 방식은 정형화된 데이터를 대상으로 저장하는 형태의 관계형 데이터베이스(RDBMS)에 기반을 두고 있었다. 하지만 스마트폰, 소셜네트워크의 전파, 다양한 센서의 발전 등으로 인해 생성되는 데이터의 양과 그 주기가 급격히 증가하였고 데이터의 형태도 비정형을 띄게 되었다. 따라서 기존의 데이터베이스 시스템으로는 빅데이터를 저장 및 관리와 분석을 감당할 수 없게 되었고, 이는 분산 시스템(distributed system)의 발전으로 이어졌다.
    분산 시스템은 데이터를 복수의 컴퓨터에 나누어 처리 또는 연산을 수행하는 방식의 시스템을 의미한다. 분산 시스템은 한 대의 고성능 컴퓨터를 이용하는 대신 복수의 저렴한 컴퓨터를 연결해 작업하여 저비용으로 고성능의 효과를 꾀할 수 있다는 이점이 있다. 자원을 원하는 만큼 연결하여 규모를 매우 쉽게 확장시킬 수 있고, 연결된 컴퓨터들 중 한대에서 오류가 발생하거나 고장을 일으켜도 전체 시스템은 여전히 유지되므로 신뢰성을 확보 및 유지할 수 있다.
    맵리듀스는 이렇게 복수의 서버 또는 컴퓨터에 분산 저장되어 있는 방대한 빅데이터를 분석할 수 있도록 프로세스를 간단하고 빠르게 최적화 방법이다. 일반적으로 데이터를 처리하기 위해서는 데이터를 한대의 컴퓨터에 가져오고 처리한 다음, 데이터를 다시 저장소에 저장하는 과정을 거치지만, 이러한 방식을 빅데이터에 적용한다면 데이터를 전송에 큰 비용과 부담이 들게 된다. 반대로 맵리듀스는 데이터를 처리하고자 하는 방식을 함수로 정의해 실제 데이터가 저장된 위치에서 바로 처리될 수 있게 한다.

    [ 맵 리듀스 개념과 동작 방법 ]
    맵리듀스의 핵심은 데이터를 <key - value>쌍으로 처리한다는 것이다. 대용량의 입력파일은 데이터를 분산저장하기 위해 분리(split)된 후, 처리하고자 하는 맵(Map)함수를 거쳐 <데이터(key) - 맵함수를 거쳐 나온 결과값(value)>으로 출력된다.

    참고자료

    · 장영재, 손원, 황희진, [비정형 데이터 분석], 한국 방송통신대 출판 문화원, 2020.
    · 이긍희, 함유근, 김용대, 이준환, 원중호, [빅데이터의 이해], 한국 방송통신대 출판 문화원, 2019.
    · 박정혁, 이상열, 강다현, 원중호(2013), [하둡과 맵리듀스], 한국 데이터 정보과학 학회지 2013년 9월호, 1013-1027
    · “Interpreter vs Compiler: Difference between interpreter and compiler”, Programiz. 2020년 10월 1일 접속. https://www.programiz.com/article/difference-compiler-interpreter
    · “ ‘ISS 안착 머스크’의 첫 유인우주선, 어떤 SW 사용했다”, ZDNet Korea, 2020년 6월 6일 작성, 2020년 10월 1일 접속. https://zdnet.co.kr/view/?no=20200605174733
    · “Distributional approaches to word meanings” Chris Potts, Ling 236/Psych 236c: Representations of meaning, Spring 2013
    · “Distributional semantics”, Wikipedia, 2020년 10월 14일 접속. https://en.wikipedia.org/wiki/Distributional_semantics
    · “UCI Machine Learning Repository” University of California Irvine. 2020년 10월 27일 접속. https://archive.ics.uci.edu/ml/datasets/OpinRank+Review+Dataset
    · Dey L, Chakraborty S, Biswas A, Bose B, Tiwari S (2016) Sentiment analysis of review datasets using Naïve Bayes’ and K-NN classifier. Int J Inform Eng Electron Bus 8(4):54–62. doi:10.5815/ijieeb.2016.04.07
    · 윤근수(2000), 한국어 특성을 이용한 인덱싱 기법 연구, 연구논문집 제27권 제1호 pp. 145-162 울산과학대학
    · “추천시스템”, 데이터사이언스스쿨, 2020년 11월 2일 접속. https://datascienceschool.net/03%20machine%20learning/07.01%20%EC%B6%94%EC%B2%9C%20%EC%8B%9C%EC%8A%A4%ED%85%9C.html?highlight=cosine
    · “코사인 유사도”, 딥러닝을 이용한 자연어처리 입문, 2020년 11월 2일 접속. https://wikidocs.net/24603
    · “Cosine Similarity - 코사인 유사도”, TOTAL DATA SCIENCE, 2014년 9월 19일, 2020년 11월 2일 접속. https://euriion.com/?p=548
  • 자료후기

      Ai 리뷰
      지식판매자가 등록한 자료는 주제에 대한 깊이 있는 분석이 돋보입니다. 과제를 작성하는 데 큰 도움이 되었습니다. 앞으로도 이런 좋은 자료가 많이 등록되기를 기대합니다.
    • 자주묻는질문의 답변을 확인해 주세요

      해피캠퍼스 FAQ 더보기

      꼭 알아주세요

      • 자료의 정보 및 내용의 진실성에 대하여 해피캠퍼스는 보증하지 않으며, 해당 정보 및 게시물 저작권과 기타 법적 책임은 자료 등록자에게 있습니다.
        자료 및 게시물 내용의 불법적 이용, 무단 전재∙배포는 금지되어 있습니다.
        저작권침해, 명예훼손 등 분쟁 요소 발견 시 고객센터의 저작권침해 신고센터를 이용해 주시기 바랍니다.
      • 해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.
        파일오류 중복자료 저작권 없음 설명과 실제 내용 불일치
        파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우 다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함) 인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우 자료의 설명과 실제 자료의 내용이 일치하지 않는 경우

    “통계·데이터과학과” 연관 자료 입니다

    문서 초안을 생성해주는 EasyAI
    안녕하세요 해피캠퍼스의 20년의 운영 노하우를 이용하여 당신만의 초안을 만들어주는 EasyAI 입니다.
    저는 아래와 같이 작업을 도와드립니다.
    - 주제만 입력하면 AI가 방대한 정보를 재가공하여, 최적의 목차와 내용을 자동으로 만들어 드립니다.
    - 장문의 콘텐츠를 쉽고 빠르게 작성해 드립니다.
    - 스토어에서 무료 이용권를 계정별로 1회 발급 받을 수 있습니다. 지금 바로 체험해 보세요!
    이런 주제들을 입력해 보세요.
    - 유아에게 적합한 문학작품의 기준과 특성
    - 한국인의 가치관 중에서 정신적 가치관을 이루는 것들을 문화적 문법으로 정리하고, 현대한국사회에서 일어나는 사건과 사고를 비교하여 자신의 의견으로 기술하세요
    - 작별인사 독후감
    해캠 AI 챗봇과 대화하기
    챗봇으로 간편하게 상담해보세요.
    2025년 09월 03일 수요일
    AI 챗봇
    안녕하세요. 해피캠퍼스 AI 챗봇입니다. 무엇이 궁금하신가요?
    6:30 오전