본문내용
1. 데이터 이해
1.1. 정성적 데이터와 정량적 데이터
정성적 데이터는 언어·문자로 표현되는 데이터이다. 정성적 데이터는 언어나 문자로 표현되어 저장·검색·분석에 많은 비용이 소모된다. 반면, 정량적 데이터는 수치·도형·기호로 표현되는 데이터이다. 정량적 데이터는 정형화되어 있어 비용소모가 적다. 정량(양)으로 표현되어 정량적 데이터라고 한다. 정성적 데이터는 언어로 표현되어 주관적이지만, 정량적 데이터는 수치로 표현되어 객관적이다. 정성적 데이터는 분석에 많은 비용이 들지만, 정량적 데이터는 간단하게 정형화되어 비용소모가 적다. 따라서 정량적 데이터가 정성적 데이터보다 분석하기 용이하다.
1.2. 정형 데이터, 반정형 데이터, 비정형 데이터
정형 데이터는 관계형 데이터베이스나 CSV 파일과 같이 형식이 정해져 있는 데이터이다. 즉, 데이터의 구조와 스키마가 미리 정의되어 있는 데이터를 말한다. 이러한 정형 데이터는 수치나 기호로 표현되어 저장, 검색, 분석이 용이하다.
반정형 데이터는 정형 데이터와 비정형 데이터의 중간 형태로, 데이터의 형식이나 구조가 완전히 정의되지 않은 데이터이다. 예를 들어 센서 데이터가 대표적인 반정형 데이터이다. 센서 데이터는 형식은 가지고 있지만, 눈으로 보기에는 무엇을 의미하는지 알기 어려운 데이터이다. 따라서 반정형 데이터는 한 번의 변환 과정을 거쳐야 분석이 가능하다.
비정형 데이터는 문서, 이미지, 동영상 등과 같이 형식이 정해져 있지 않은 데이터이다. 이러한 데이터는 구조화되어 있지 않아 저장, 검색, 분석이 어렵다. 하지만 최근 자연어 처리, 컴퓨터 비전 등 기술의 발달로 비정형 데이터의 활용도가 높아지고 있다.
정형 데이터는 수치나 기호로 표현되어 가공이 쉽지만, 정성적인 정보를 담기 어렵다. 반면에 비정형 데이터는 정성적인 정보를 담고 있지만 가공이 어렵다. 따라서 정형 데이터와 비정형 데이터를 적절히 활용하면 데이터의 장점을 극대화할 수 있다. 이처럼 데이터의 유형에 따라 장단점이 있으며, 상황에 맞게 적절한 데이터를 선택하는 것이 중요하다.
1.3. 암묵지와 형식지
암묵지는 개인에게 체화되어 있어 표현화되기 어려운 지식을 의미한다. 예를 들어 김치 담그기, 자전거 타기 등과 같이 개인이 오랜 경험을 통해 자연스럽게 습득한 지식이 이에 해당한다. 개인에게 내면화된 암묵지를 조직 차원에서 공통화하고 형식화하여 전달하는 과정이 필요하다.
형식지는 문서나 매뉴얼 등을 통해 드러나고 공유될 수 있는 지식을 말한다. 교과서, 동영상 등에 담긴 지식은 언어, 숫자, 기호로 표현된 형식지에 해당한다. 이러한 형식지는 개인의 암묵지와 연결되어 새로운 지식으로 발전할 수 있다.
암묵지와 형식지는 상호보완적인 관계에 있다. 암묵지는 새로운 지식 생성의 원천이 되며, 형식지는 지식의 저장과 공유를 가능하게 한다. 암묵지와 형식지가 효과적으로 결합될 때 조직 차원의 지식 활용 역량이 높아진다고 할 수 있다.
1.4. DIKW 모델
D(Data) 데이터는 가공하기 전의 순수한 수치나 기호이다. I(Information) 정보는 패턴을 인식하고 의미를 부여한 데이터이다. K(Knowledge) 지식은 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물이다. W(Wisdom) 지혜는 창의적 아이디어이다. 이처럼 데이터는 정보, 지식, 지혜로 이어져 가치를 갖추어 간다. 데이터는 그 자체만으로는 의미가 없지만, 정보와 지식을 통해 지혜로 발전할 수 있다. 이는 데이터 분석의 궁극적인 목적이자 가치이다.
1.5. 데이터의 단위
1바이트(byte)는 8비트(bit)로 구성되며, 이는 디지털 데이터의 기본 단위이다. 1킬로바이트(KB)는 1024바이트(byte)로 이루어지고, 1메가바이트(MB)는 1024킬로바이트(KB)로 구성된다. 1기가바이트(GB)는 1024메가바이트(MB)이며, 1테라바이트(TB)는 1024기가바이트(GB)이다. 더 큰 단위로는 1페타바이트(PB), 1엑사바이트(EB), 1제타바이트(ZB), 1요타바이트(YB)가 있다. 이처럼 데이터의 단위는 킬로(KB)에서 시작하여 메가(MB), 기가(GB), 테라(TB), 페타(PB), 엑사(EB), 제타(ZB), 요타(YB) 순으로 증가하며, 데이터의 양이 많아질수록 더 큰 단위로 표현하게 된다. 이러한 데이터 단위의 체계적인 구분은 데이터 관리와 활용에 있어 매우 중요하다.
2. 데이터 분석 기획
2.1. 분석 대상과 방법
데이터의 특성에 따라 어떤 분석 방법을 적용할지 결정할 수 있다. 알려진 대상에 대한 분석 방법과 알려지지 않은 대상에 대한 분석 방법이 있다.
대상과 방법이 모두 알려진 경우 최적화 기법을 활용할 수 있다. 이는 이미 파악된 문제에 대해 최선의 해결책을 찾는 것이다. 정해진 목표와 기존의 데이터를 바탕으로 최적의 의사결정을 도출할 수 있다.
대상이 알려지지 않고 방법만 알려진 경우 통찰을 얻는 분석 기법을 활용할 수 있다. 데이터를 활용하여 숨겨진 의미를 찾아낼 수 있다. 이를 통해 새로운 해결책을 제시할 수 있다.
대상과 방법이 모두 알려지지 않은 경우 발견적 분석 기법을 활용할 수 있다. 데이터로부터 패턴과 법칙을 찾아내어 새로운 대안을 발견하는 것이다.
...