소개글
"한국방송통신대 컴퓨터 구조 출석수업 평가과제"에 대한 내용입니다.
목차
1. 데이터 분석과 기계학습 접근방법
1.1. 데이터 분석에 기계학습 접근방법이 도입된 이유
1.2. 모수적 모형 접근방법과 알고리즘 접근방법의 비교
2. 하둡과 빅데이터 처리 기술
2.1. 하둡의 개념과 구성
2.2. 하둡의 역사와 발전
3. 협업필터링 추천시스템
3.1. 협업필터링의 개념
3.2. 협업필터링의 종류
4. 빅데이터 시대의 기회와 위협
4.1. 빅데이터의 긍정적인 영향
4.2. 빅데이터의 부정적인 영향
4.3. 데이터과학자의 역할
5. 데이터 품질관리와 기업경영
5.1. 데이터 품질의 정의
5.2. 데이터 품질이 기업경영에 미치는 영향
6. 참고 문헌
본문내용
1. 데이터 분석과 기계학습 접근방법
1.1. 데이터 분석에 기계학습 접근방법이 도입된 이유
데이터 분석에 기계학습 접근방법이 도입된 이유는 관측치마다 변수가 급격히 증가하고 통제되지 않은 인간행동에 의해 생산된 데이터라는 복잡성 때문이다. 기존의 모수적 모형 접근방법으로는 좋은 결과를 기대하기 어려웠기 때문에, 알고리즘(algorithm) 접근방법이 도입되었다. 즉, 단순 선형 회귀분석과 같이 모수를 과거 데이터로부터 적합하는 모수적 모형 접근방법과는 달리, 알고리즘에 의해 정해진 방식에 따라 계산된 결과로 데이터를 분석하는 방식이다. 이러한 알고리즘 접근방법은 데이터의 복잡성이 높아도 적용이 가능하다는 장점이 있다.
1.2. 모수적 모형 접근방법과 알고리즘 접근방법의 비교
모수적 모형 접근방법과 알고리즘 접근방법의 비교는 다음과 같다.
모수적 모형 접근방법은 단순 선형 회귀분석 'Y=a+bx'와 같이 모수 a와 b를 과거 데이터로부터 적합(fitting)하는 방법이다. 즉, 모형 식을 세우고 식 내의 모수를 데이터를 활용하여 최소자승법이나 최대우도추정법 등으로 구하는 방식이다. 이 방법의 장점은 결과에 대한 해석이 대체로 용이하며, 결과가 복잡하지 않다는 것이다. 반면 단점은 가정이나 설정한 식에 부합하지 않는 데이터의 경우, 정확도 등의 성능이 낮을 수 있다는 것이다.
반면 알고리즘 접근방법은 알고리즘에 의해 정해진 방식에 따라 계산된 결과로 분석하는 방식이다. 이 방법의 장점은 데이터 복잡성이 높아도 적용이 가능하다는 것이다. 하지만 단점은 알고리즘의 속성이나 방법에 대한 이론적 근거를 모르고 남용하는 경우, 과도적합(over-fitting) 등의 우를 범할 수 있으며, 기계만 인지할 수 있는 결과로 인해 결과 해석이 어려운 방법이 많다는 것이다.
이러한 특징을 고려할 때, 모수적 모형 접근방법은 선형 회귀모형, 로지스틱 회귀모형 등에 활용되며, 알고리즘 접근방법은 의사결정나무, 신경망, 배깅(bagging), 랜덤포리스트(random forest), 딥러닝(deep learning) 등에 활용된다.
2. 하둡과 빅데이터 처리 기술
2.1. 하둡의 개념과 구성
하둡(Hadoop)은 자바(Java) 언어로 작성되어 있으며, 하둡 공통(Hadoop Common), 하둡 분산 파일 시스템(Hadoop Distributed File System; 이하 HDFS), 하둡 맵리듀스(Hadoop MapReduce)의 세 가지 모듈로 구성되어 있다""
하둡 공통(Hadoop Common)은 다른 모듈들을 지원하는 공통 유틸리티 모음으로 하둡을 기동하는 스크립트와 분산 파일 시스템에의 접근을 돕는 유틸리티 등이 포함된다""
하둡 분산파일 시스템(Hadoop Distributed File System)은 하둡 공통을 이용하여 대용량 데이터를 다수의 컴퓨터에 분산시켜 빠르게 처리할 수 있는 분산 파일 시스템이다""
하둡 맵리듀스(Hadoop MapReduce)는 분산 파일 시스템에 저장된 대용량 데이터를 병렬처리하기 위한 소프트웨어 프레임워크이다""
일반적으로 프로그래머가 분산시스템으로 프로그래밍을 짤 때 데이터를 분할하거나 어느 서버에서 어떤 작업을 실행해야 할지에 관하여 계획을 수립하고 작업을 지정해 주어야 하지만, 하둡 플랫폼에서는 빅데이터(big data) 분석을 수행할 때 작업자가 분산처리를 위한 작업분할에 관하여 고민할 필요가 없이 데이터 자체와 그 데이터를 가지고 무엇을 할 것인가에 대해서만 생각을 집중시킬 수 있다는 장...
참고 자료
최대우, 장영재, 이석호, 「데이터과학입문」, 한국방송통신대학교 출판문화원, 2016.
이긍희, 함유근, 김용대, 이준환, 원중호, 「빅데이터의 이해」, 한국방송통신대학교 출판문화원, 2014.
한국소프트웨어기술인협회 빅데이터전략연구소, 「빅데이터 개론」, 광문각, 2016.
박형준, 「빅데이터 전쟁」, 세종서적, 2015.
함유근, 채승명, 「빅데이터 경영을 바꾸다」, 삼성경제연구소, 2012.
함유근, 「이것이 빅데이터 기업이다」, 삼성경제연구소, 2015.
http://blrunner.com/12 빅데이터란 무엇인가? 쉽게 풀어 쓴 빅데이터와 하둡 이야기.
http://blog.naver.com/PostView.nhn?blogId=kmj20808&logNo=221274071948 빅데이터의 활용과 미래
https://kimstreasure.tistory.com/405 빅데이터의 중요성
배움터. (2020). “초보자를 위한 안드로이드 앱 프로그래밍 입문”.