본문내용
1. 서론
최근 들어 뉴스를 볼 때도, 신문이나 잡지를 볼 때도, 라디오를 듣거나 인터넷을 정보를 검색하다가도 너무나도 흔하게 접하게 되는 단어가 빅데이터(Big Data)이다. 정부에서 빅데이터를 활용한 정책을 펼친다든지, 기업에서 빅데이터를 활용하여 소비자에 대한 서비스를 향상하겠다는 말들을 많이 들어왔지만, 실제로 빅데이터가 무엇인지, 또한 어떤 방식으로 활용을 한다는 것인지 모르는 경우가 대부분이다. 실제로 우리의 주변에는 다양한 방식으로 빅데이터를 활용하여 제공하는 정보가 많지만, 빅데이터의 힘, 또는 그 영향력이 실제로 느껴지지는 않는다. 빅데이터란 말 그대로 양이 어마어마한 데이터를 뜻한다. 다만, 디지털 환경에서 생성되는 모든 형태의 데이터를 의미한다. 그 양이 많고, 생성되는 주기가 짧으며, 데이터의 형태도 숫자, 문자 외의 이미지나 영상까지 포함하는 개념이기 때문에, 기존의 방식으로는 수집하고 저장하고 분석하는 것이 불가능한 데이터이다. 예를 들자면, 유튜브를 시청할 때 어떤 카테고리를 주로 시청하는지, 하루에 평균 몇 시간을 시청하며, 주로 시청하는 시간대는 언제인지, 주로 어느 장소에서 접속해서 시청하는지 위치정보 등의 데이터도 모두 포함하여 빅데이터라고 하는 것이다. 빅데이터는 그 데이터가 쌓이고 쌓이면서 보다 정교한 분석이 가능해지는데 시대가 흐를수록 그 데이터는 점점 더 빨리 생성되고 있으며, 그 활용 효과가 지속해서 늘어나는 특징이 있다.
2. 빅데이터의 개념과 특징
2.1. 빅데이터의 정의와 등장 배경
빅데이터의 정의와 등장 배경은 다음과 같다.
빅데이터는 데이터의 규모, 기술, 방법 등 접근관점에 따라 다양하게 정의되고 있다. 2011년 맥킨지(McKinsey)는 빅데이터를 "일반적인 데이터베이스 체계가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터"라고 정의하였고, 2012년 삼성경제연구소는 "단지 거대하다기보다 형식이 다양하고 순환 속도가 매우 빨라서 기존방식으로는 관리 및 분석이 어려운 데이터"라고 정의하면서 데이터의 규모적인 측면에 초점을 맞추었다. 2014년 한국법제연구원은 "기존의 정보처리 기술 및 도구로 수집/저장/관리/분석 등을 할 수 있는 범위를 초과하는 대용량 데이터로서, 이를 활용/분석하여 새로운 가치/지식 등의 정보 재화를 생성하고, 생성된 정보 재화에 기초하여 일정한 사안에 대하여 능동적으로 대응하거나 변화를 예측하기 위한 정형 또는 비정형의 데이터 집합"으로 정의하면서 빅데이터의 규모뿐만이 아닌 그 활용에 대해서도 초점을 맞추고 있다.
컴퓨터와 인터넷, 스마트폰 등 모바일 기기의 사용이 일상화되면서 사람들은 디지털 환경 안에 무수히 많은 흔적을 남기고 있다. 이전에는 가게에서 물건을 살 때 현금 또는 카드 결제의 순간에 데이터가 기록되었으나 현재는 결재하지 않더라도 소비자가 어떤 상품에 관심을 두고 있는지, 얼마나 오랫동안 쇼핑몰에서 시간을 보냈는지 등의 정보도 데이터로 저장된다. 거의 모든 우리의 생활이 디지털 환경에서 이루어지며, 은행, 증권과 같은 금융거래, 학습, 취미생활, 자료검색과 이메일 업무 등 하루의 대부분 시간을 PC나 스마트폰, 인터넷에 할애하고 있다. 사물 지능통신(M2M, Machine to Machine)도 확산되면서 디지털 정보는 폭발적으로 증가하고 있다. 트위터(twitter)에서는 하루에 평균적으로 2억 건의 트윗이 생성되고, 유튜브의 하루 평균 동영상 재생 건수는 40억 회가 넘는다. 전 세계적으로 데이터 규모는 10제타바이트에 달할 것으로 예상되는데, 1제타바이트는 미국 의회 도서관 인쇄물의 1억 배에 달하는 용량의 정보이다. 민간뿐만이 아니라 공공 분야에서도 데이터는 지속해서 생성되고 있으며, 스마트워크가 본격화되면서 데이터 증가의 가속화는 지속될 것으로 예상된다.
2.2. 빅데이터의 특징(3V)
빅데이터의 특징(3V)은 크기(Volume), 다양성(Variety), 속도(Velocity)로 이루어져 있다.
크기(Volume)는 데이터의 물리적인 규모를 의미하며, 기존의 데이터베이스 시스템으로는 처리하기 어려울 정도로 방대한 양의 데이터를 말한다. 최근 십여 년 간 디지털 기기와 인터넷의 확산으로 데이터의 양이 기하급수적으로 증가하고 있어, 기존 데이터베이스 시스템으로는 감당할 수 없...