본문내용
1. 데이터 이해
1.1. 데이터의 유형
정성적 데이터는 언어·문자로 표현되어 저장·검색·분석에 많은 비용이 소모되지만, 정량적 데이터는 수치·도형·기호로 표현되어 비용소모가 적다. 정형 데이터는 관계형 데이터베이스, CSV 등 형식이 정해져 있고, 반정형 데이터는 데이터의 형태(스키마,메타데이터)가 있으나 눈으로 정보를 알 수 없으며, 비정형 데이터는 소셜데이터, 영상, 이미지와 같이 형태가 정해져 있지 않다. 암묵지는 메뉴얼화되어 있지 않고 개인에게 체화되어 있어 겉으로 드러나지 않지만, 형식지는 문서나 매뉴얼화된 지식이다. DIKW 구조에 따르면 데이터는 가공하기 전의 순수한 수치나 기호이고, 정보는 패턴을 인식하고 의미를 부여한 데이터이며, 지식은 상호 연결된 정보 패턴을 이해하여 예측한 결과물이고, 지혜는 창의적 아이디어이다. 데이터 단위로는 1바이트, 1킬로바이트, 1메가바이트, 1기가바이트, 1테라바이트, 1페타바이트, 1엑사바이트, 1제타바이트, 1요타바이트가 있다. 데이터베이스는 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터라는 특징이 있다. 기업 내부 데이터베이스에는 OLTP, OLAP, CRM, SCM, ERP, BI, BA가 있으며, DBMS는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공한다. SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어이다. 빅데이터는 4V(Volume, Variety, Velocity, Value)로 특징지어지며, 데이터 분석에 경제성을 제공한 기술은 클라우드 컴퓨팅이다. 빅데이터에 거는 기대는 산업혁명의 석탄·철, 21세기 원유, 렌즈, 플랫폼으로 비유된다. 빅데이터 가치 선정이 어려운 이유는 데이터 재사용·재조합, 기술 발전으로 새로운 가치 창출, 가치 유무 판단의 어려움 때문이다. 빅데이터 기본 기법에는 연관규칙학습, 유형분석, 유전자 알고리즘, 회귀분석, 감정분석이 있다. 빅데이터 시대의 위기요인은 사생활 침해, 책임 원칙 훼손, 데이터 오용이다. 빅데이터 활용을 위해서는 데이터, 기술, 인력이 필요하며, 데이터 사이언스는 정형·비정형 데이터 분석을 통해 의미 있는 정보를 추출하는 학문이다. 데이터 사이언티스트에게 요구되는 역량은 하드 스킬과 소프트 스킬이 있다.
개인정보 비식별 기술에는 데이터 마스킹, 가명처리, 총계처리, 범주화 등이 있다. 하둡은 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술이고, 데이터 웨어하우스는 의사결정을 돕기 위해 제공하는 통합적이고 시간성 있는 데이터의 집합이다.
1.2. 데이터베이스의 특징
데이터베이스의 특징은 다음과 같다.
데이터베이스는 통합된 데이터로, 동일한 내용이 중복되지 않는다. 또한 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있다. 데이터베이스는 여러 사용자가 공동으로 이용할 수 있다. 그리고 데이터베이스의 내용은 항상 변화하지만, 현재의 정확한 데이터를 유지해야 한다. 데이터베이스 설계 절차는 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계 순으로 진행된다.
이러한 데이터베이스의 특징을 통해 데이터의 통합성, 접근성, 공용성, 변화성 등을 확보할 수 있다. 또한 체계적인 설계 절차를 거쳐 데이터베이스를 구축함으로써 데이터의 무결성과 효율성을 높일 수 있다.
1.3. 기업 내부 데이터베이스
기업 내부 데이터베이스는 기업의 주요 업무 및 의사결정 프로세스를 지원하기 위해 구축되는 데이터베이스이다. 기업 내부 데이터베이스는 크게 OLTP(On-Line Transaction Processing), OLAP(On-Line Analytical Processing), CRM(Customer Relationships Management), SCM(Supply Chain Management), ERP(Enterprise Resource Planning), BI(Business Intelligence), BA(Business Analytics) 등으로 구분된다.
OLTP는 데이터베이스의 데이터를 수시로 갱신하는 프로세싱으로, 온라인 거래처리 시스템의 단순 자동화가 특징이다. OLAP는 다차원의 데이터를 대화식으로 분석하는 시스템이다. CRM은 고객과 관련된 내·외부 자료를 분석하여 고객 중심 자원을 극대화하고 이를 토대로 효율적인 마케팅에 활용한다. SCM은 공급망 단계를 최적화하여 고객을 만족시키는 것이 목적이다. ERP는 기업 전체를 경영자원의 효과적 이용 관점에서 통합적으로 관리하고 경영의 효율화를 기하는 시스템이다. BI는 기업이 보유한 데이터를 정리하고 분석하여 의사결정에 활용하는 것이 목적이며, BA는 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법이다.
이처럼 기업 내부 데이터베이스는 기업의 다양한 의사결정과 경영 활동을 지원하는 핵심적인 역할을 한다. 특히 OLTP와 OLAP는 실시간 거래 처리와 대화형 분석을 통해 기업의 전략적 의사결정을 지원하며, CRM, SCM, ERP 등은 기업 내외부의 자원과 프로세스를 통합적으로 관리하여 경쟁력을 높이는 데 기여한다. 또한 BI와 BA는 기업이 보유한 데이터를 기반으로 인사이트를 도출하고 이를 의사결정에 활용할 수 있도록 한다.
따라서 기업 내부 데이터베이스는 기업 경영의 핵심적인 기반이 되며, 기업 경쟁력 강화와 의사결정 지원을 위해 필수불가결한 요소라고 할 수 있다.
1.4. DBMS(Data Base Management System)
DBMS(Data Base Management System)는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이다. 관계형 DBMS는 데이터를 테이블(표)로 정리하며, 객체지향 DBMS는 정보를 객체(이미지나 영상)로 정리한다. SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어로, 집계함수 중 COUNT()만 수치형, 문자형 데이터에 모두 사용 가능하다. 이를 통해 데이터베이스 관리자는 데이터베이스 내의 데이터를 효과적으로 관리하고 활용할 수 있다. 또한 DBMS는 데이터의 무결성, 일관성, 보안성 등을 보장하여 데이터의 신뢰성을 높일 수 있다. 이처럼 DBMS는 데이터를 체계적으로 관리하고 활용할 수 있게 해주는 핵심 기술로, 데이터 기반 의사결정에 필수적인 역할을 한다.
1.5. SQL: 데이터베이스 하부언어
SQL은 데이터베이스에 접근할 수 있도록 해주는 언어이다. SQL에는 집계함수가 존재하는데, 이 중 COUNT()만이 수치형 및 문자형 데이터 모두에 사용할 수 있다. SQL은 데이터의 삽입, 삭제, 갱신 등의 CRUD(Create, Read, Update, Delete) 연산을 지원하며, 이를 통...