본문내용
1. 데이터 이해
1.1. 데이터의 유형
데이터의 유형은 크게 정성적 데이터와 정량적 데이터로 구분된다. 정성적 데이터는 언어나 문자로 표현된 것이며, 정량적 데이터는 수치, 도형, 기호로 표현된다. 정성적 데이터는 저장, 검색, 분석에 많은 비용이 발생하지만, 정량적 데이터는 간단하게 정형화되어 비용이 적게 든다.
또한 데이터는 정형 데이터, 반정형 데이터, 비정형 데이터로 구분할 수 있다. 정형 데이터는 관계형 데이터베이스나 CSV 파일과 같이 형식이 정해진 데이터이며, 반정형 데이터는 눈으로 봤을 때 무슨 정보인지 모르는 데이터로 한 번 변환이 필요하다. 비정형 데이터는 소셜데이터, 영상, 이미지와 같이 형태가 정해지지 않은 데이터이다.
한편 데이터는 명시적으로 표현된 형식지와 암묵적으로 체화된 암묵지로 구분된다. 형식지는 문서나 매뉴얼화된 지식이며, 암묵지는 메뉴얼화되어 있지 않고 개인에게 체화된 지식이다. 데이터 단위로는 비트, 바이트, 킬로바이트, 메가바이트, 기가바이트, 테라바이트, 페타바이트, 엑사바이트, 제타바이트, 요타바이트 등이 있다.
1.2. 데이터베이스의 특징
데이터베이스의 특징은 다음과 같다. 통합된 데이터로 이루어져 동일한 내용이 중복되어 있지 않다. 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있다. 여러 사용자가 데이터를 공동으로 이용할 수 있다. 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신이 가능하여 항상 변화하지만 현재의 정확한 데이터를 유지한다. 데이터베이스 설계 절차는 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계 순으로 이루어진다.
데이터베이스의 특징을 정리하면 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터로 요약할 수 있다. 또한 데이터베이스 설계 절차는 단계적인 절차를 거쳐 진행되며, 이를 통해 데이터베이스의 논리적, 물리적 구조를 정의한다.
1.3. 기업 내부 데이터베이스
기업 내부 데이터베이스는 기업이 자체적으로 보유하고 있는 데이터베이스를 의미한다. 기업 내부 데이터베이스에는 다음과 같은 특징이 있다.
OLTP(On-Line Transaction Processing)는 데이터베이스의 데이터를 수시로 갱신하는 프로세싱 방식이다. 이는 온라인 거래처리로 다양한 과정의 연산이 하나의 단위 프로세싱으로 실행되도록 하는 단순 자동화 시스템이다. OLAP(On-Line Analytical Processing)은 다차원의 데이터를 대화식으로 분석하는 방식이다.
CRM(Customer Relationships Management)은 고객과 관련된 내·외부 자료를 분석해 고객 중심 자원을 극대화하고 이를 토대로 효율적인 마케팅에 활용한다. SCM(Supply Chain Management)은 공급망 단계를 최적화해 고객을 만족시키는 방식이다. ERP(Enterprise Resource Planning)는 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템이다. BI(Business Intelligence)는 기업이 보유하고 있는 데이터를 정리하고 분석해 의사결정에 활용한다. BA(Business Analytics)는 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법이다.
이러한 기업 내부 데이터베이스는 데이터를 통합하고 관리할 수 있는 DBMS(Data Base Management System)를 통해 구축된다. DBMS는 관계형 DBMS와 객체지향 DBMS로 구분된다. 관계형 DBMS는 테이블(표)로 데이터를 정리하고, 객체지향 DBMS는 정보를 객체(이미지나 영상)로 정리한다.
기업 내부 데이터베이스를 관리하고 활용하기 위해서는 데이터베이스 언어인 SQL(Structured Query Language)을 사용한다. SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어로, 집계함수 중 COUNT()만 수치형, 문자형 데이터에 모두 사용할 수 있다.
1.4. DBMS(Data Base Management System)
DBMS(Data Base Management System)는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이다. 관계형 DBMS는 테이블(표)로 데이터를 정리하는 방식을 사용한다. 반면 객체지향 DBMS는 정보를 객체(이미지나 영상)로 정리한다. SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어로, 집계함수 중 COUNT()만 수치형, 문자형 데이터 모두 사용할 수 있다. DBMS는 데이터베이스의 데이터를 수시로 갱신하는 OLTP(On-Line Transaction Processing)와 다차원의 데이터를 대화식으로 분석하는 OLAP(On-Line Analytical Processing)으로 구분된다. 또한 기업 내부 데이터베이스로는 CRM(Customer Relationships Management), SCM(Supply Chain Management), ERP(Enterprise Resource Planning), BI(Business Intelligence), BA(Business Analytics) 등이 있다. 이처럼 DBMS는 데이터를 구조화하고 관리하여 다양한 기업 내부 시스템에 활용될 수 있는 핵심적인 기술이다.
1.5. SQL(Structured Query Language)
SQL(Structured Query Language)이란 데이터베이스에 접근할 수 있는 데이터베이스 하부언어이다. SQL은 데이터베이스의 데이터를 효과적으로 관리하고 운영할 수 있도록 해준다. SQL에는 데이터의 입력, 수정, 삭제, 검색 등의 기능이 포함되어 있다.
SQL의 주요 기능 중 하나는 집계함수이다. SQL의 집계함수에는 COUNT(), SUM(), AVG(), MAX(), MIN() 등이 있다. COUNT()는 수치형 데이터뿐만 아니라 문자형 데이터에도 사용할 수 있지만, 다른 집계함수들은 주로 수치형 데이터에 사용된다.
SQL은 데이터베이스에 저장된 데이터를 효과적으로 관리하고 운영할 수 있게 해주는 도구이다. 데이터를 입력, 수정, 삭제, 검색하는 기본적인 기능과 함께 집계 기능까지 제공하여 데이터를 의미 있는 정보로 가공할 수 있게 돕는다. SQL은 데이터 관리와 분석에 필수적인 데이터베이스 언어라고 할 수 있다.
1.6. 빅데이터의 특징
빅데이터는 4V를 특징으로 한다. 첫째, 데이터의 양(Volume)이 ...