(아파치) 하둡이란 무엇인가?
- 최초 등록일
- 2013.11.07
- 최종 저작일
- 2013.11
- 10페이지/ 한컴오피스
- 가격 3,900원
소개글
빅 데이터를 처리하는 하둡에 대한 레포트입니다.
목차
1. 들어가며
2. 하둡이란?
3. 하둡의 핵심 구성요소
(1) HDFS
(2) Map Reduce
4. 하둡 에코 시스템
(1) Pig, Hive ; 프로그래밍 능력 향상
(2) Hbase, Sqoop, Flume ; 데이터 액세스 향상
(3) Zookeeper, Ooize ; 조정과 워크플로
(4) Ambari, Whirr ; 관리 및 배포
(5) Mahout ; 기계적 학습
5. 나오며
본문내용
1. 들어가며
“구슬 서 말도 꿰어야 보배.” 라는 말이 있다.
빅 데이터는 이런 속담이 가장 잘 들어맞는 분야이다. 빅 데이터의 특징은 흔히 데이터의 양, 이전 시대와 다른 빠른 생성속도, 복잡성의 세 가지로 요약된다. 최근에는 여기에 ‘가치’를 빅데이터의 중요한 성격으로 포함시킨다.
인터넷과 모바일, 심지어 도로에 설치된 CCTV까지 사람들이 남기는 흔적은 상상을 초월할 정도로 엄청난 양이다. 이렇게 엄청난 양의 빅데이터는 기업과 국가 활동의 중요한 자원이 되고 있다. 관건은 이 같은 대규모 데이터를 어떻게 관리하고 분석해서 가치 있는 정보를 찾아내느냐이다. 규모를 가늠할 수 없을 만큼 많은 정보와 데이터가 있더라도 정리와 분석이 안 된다면 빅 데이터는 그저 무용지물의 거대한 쓰레기 산에 불과하다.
하지만 이러한 빅데이터는 ‘하둡’을 만나서 드디어 날개를 펴고 자유로이 날아다닐 수 있게 되었다. 과연 ‘하둡’이란 무엇일까? 또한 하둡을 지탱해주고 있는 것들에는 어떤 것이 있을까?
2. 하둡(hadoop)이란?
대항해 시대는 지중해에서 쓰던 노를 젓는 갤리선과 다른 배들이 만들어졌기 때문에 가능했다. 카라크와 카라벨 같은 범선들이 만들어졌으며, 자체 동력이 없고 바람과 해류를 이용하는 만큼 먼 바다 를 향하는데 효율적이었다. 빅데이터의 대항해 시대는 병렬처리 시스템에 기반을 두고 있다. 기존의 데이터 처리는 고성능 컴퓨터를 이용했지만 빅데이터를 처리하기 위해서는 병렬처리 시스템, 흔히 클라우딩 컴퓨팅이라고 부르는 기술을 사용할 수밖에 없는 것이다.. 하둡(hadoop)은 바로 이 클라우딩 컴퓨팅을 이용해 안정적이고 효과적으로 빅데이터를 처리할 수 있게 해준다.
하둡은 바로 대용량의 데이터 처리를 위해 개발된 오픈소스 소프트웨어다.
하둡은 야후(Yahoo)의 재정지원으로 2006년부터 개발되었으며 현재는 아파치(Apache) 재단이 개발을 주도하고 있다. 하둡은 구글의 분산 파일 시스템(GFS) 논문 공개 후 본격적으로 개발되었는데 구글의 시스템과 대응되는 체계로 구성되어 있는 것이 그 특징이라 하겠다.
참고 자료
빅 데이터, 어떻게 활용할 것인가 - 오라일리 심층 보고서
빅 데이터 플랫폼 전략 : 빅 데이터가 바꾸는 미래 비지니스 플랫폼 혁명
네이버 지식백과 : 빅 데이터 기술
Hadoop : hadoop.apache.org
The Hadoop : www.hadoop.co.kr
HADOOP 완벽 가이드 클라우드 컴퓨팅 구축을 위한 실전 안내서
경영정보시스템
빅데이터 분석의 ‘하둡’, 새로운 역사 쓰다 2011.7.21. [블로터 닷넷]
국가과학기술위원회 : 넘쳐나는 빅 데이터, 노란 코끼리 ‘Hadoop’이 해결한다! 2012.6.29.
아파치 하둡 : incubator.apache.org/