데이터과학입문 1. 빅데이터의 특징을 기존 데이터와 비교하여 설명하시오. (10점)
- 최초 등록일
- 2020.11.04
- 최종 저작일
- 2020.11
- 8페이지/ 한컴오피스
- 가격 5,000원
소개글
데이터과학입문입니다. 부족하지만 나름대로 정리해보았습니다. 잘 활용하셔서 좋은 결과 거두세요^^*
목차
1. 빅데이터의 특징을 기존 데이터와 비교하여 설명하시오. (10점)
2. 네플릭스의 추천서비스와 관련한 원리로 협업필터링을 꼽을 수 있다. 협업필터링의 장점과 단점, 사용상 유의점에 대해 논하시오. (6점) 또한 교재의 사례 외에 협업필터링을 이용한 실제 업무사례에는 어떠한 것들이 있는지 조사하여 약술하시오. (6점)
3. 검색 데이터를 수집하여 이용하려고 한다. 데이터 수집절차를 약술하고 직접 수집해 보시오. 또한, 실제 수집한 데이터의 특징을 기술하고 이 데이터를 통해 어떠한 분석결과를 도출할 수 있을지 논하시오. (10점)
4. 교재 6장에서 제시한 시각화 도구 중 하나를 선택하여 본인이 선택한 임의의 데이터를 시각적으로 표현해 보시오. (데이터 시각화의 당위성이 드러나도록 적절한 데이터를 선택하였는지와 시각화 효과가 뚜렷하게 드러날 수 있도록 고려하여 충실하게 시각화를 하였는지 여부가 채점 기준임) (12점)
5. 빅데이터 시대에 데이터 마이닝 기법의 중요성이 부각되는 이유를 설명하시오. (6점) 또한 데이터 마이닝이 가능한 기술적 동인은 무엇이었는지 설명하시오. (6점)
6. 최근 인공지능의 발전은 데이터과학의 미래에 대해 많은 논쟁을 불러일으키고 있다. 본인의 견지에서 인공지능을 통한 미래사회 모습을 논하고 부작용을 최소화할 수 있는 방법이 무엇인지 논하시오. (14점)
7. 참고문헌
본문내용
1. 빅데이터의 특징을 기존 데이터와 비교하여 설명하시오. (10점)
빅데이터의 공통적 특징은 3V로 설명할 수 있다. 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성이다. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석처리가 가능한 성능을 의미한다. 다양성(Variety)은 다양한 종류의 데이터를 의미하며 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있다. 빅데이터의 특징은 3V로 요약하는 것이 일반적이다. 즉 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미한다. 빅 데이터(영어: big data)란 기존의 데이터베이스로는 처리하기 어려울 정도로 방대한 양의 데이터를 의미한다. 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석 가능케 하며 과거에는 불가능했던 기술을 실현시키기도 한다.
빅데이터가 무엇을 말하고, 기존 데이터하고는 어떤 차이는 “보유한 데이터를 기존 데이터웨어하우스(DW) 장비로 수용하고 분석할 수 있으면 빅데이터가 아니다. 데이터를 저장하고 처리해야 한다면 그건 빅데이터라고 볼 수 있다.” 시저 로저스 테라데이타 애스터 사업부 수석 마케팅 이사는 빅데이터와 데이터를 나누는 지표로 ‘하둡’을 내세웠다.
하둡은 분산처리 시스템인 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술인 맵리듀스를 구현한 오픈소스 프레임워크다.
참고 자료
데이터과학입문, 한국방송통신대학교 출판문화원