본문내용
1. 개요
1.1. 데이터 웨어하우스의 정의
데이터 웨어하우스란 "기업내에서 여러 조직선을 취합하는 통합계획 수립 및 일치된 의사결정을 위해 사용되는 비소멸적이고, 시간변이성, 주체지향적에 입각한 통합된 데이터 저장소"이다. 데이터 웨어하우스는 수년간의 역사적인 데이터(historical data)와 기업의 운영계 시스템에서 생긴 내부 데이터(internal data), 그리고 외부 데이터(external data)를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 각도에서 다차원적인 분석을 가능케 하는 통합 시스템이다. 데이터 웨어하우스의 궁극적인 목적은 물리적으로 분산된 여러 데이터베이스 내에 존재하는 데이터들에 대하여 하나의 논리적인 뷰(view)를 창출하는 것이다.
1.2. 데이터 웨어하우스의 특징
데이터 웨어하우스의 특징은 다음과 같다.
첫째, 주제지향성(Subject Oriented)이다. 데이터 웨어하우스는 특정 주제 영역(예: 판매, 제품, 고객)에 초점을 맞추어 데이터를 통합하여 관리하며, 운영 시스템의 기능별 데이터베이스와는 달리 주제별로 데이터를 구조화한다. 따라서 기업의 의사결정을 위해 필요한 정보를 주제별로 제공할 수 있다.
둘째, 통합성(Integrated)이다. 데이터 웨어하우스는 기업 내 다양한 운영 시스템에 분산되어 있는 데이터를 통합하여 관리한다. 따라서 데이터 간의 일관성과 중복성 제거를 통해 신뢰성 있는 정보를 제공할 수 있다.
셋째, 비휘발성(Non-volatile)이다. 데이터 웨어하우스에 저장된 데이터는 삭제되거나 변경되지 않고 시간에 따라 누적된다. 이를 통해 과거 데이터에 대한 조회와 분석이 가능하다.
넷째, 시계열성(Time Variant)이다. 데이터 웨어하우스는 시간의 흐름에 따른 데이터의 변화를 기록하고 관리한다. 따라서 시간 경과에 따른 추세 분석, 예측 등 시계열 분석이 가능하다.
이와 같은 데이터 웨어하우스의 특징은 기업의 의사결정 지원을 위한 통합적이고 효과적인 정보 제공을 가능하게 한다.
2. 데이터 웨어하우스의 구조
2.1. 운영 데이터 저장소(ODS)
ODS(Operational Data Store)는 운영 데이터 저장소로, 데이터 웨어하우스의 구조 중 하나이다. ODS는 RDBMS 내에 있는 각종 테이블의 집합으로 원시 데이터를 보관한다. 즉, 기업의 운영 시스템에서 생성된 데이터를 저장하고 관리하는 곳이다.
ODS의 특징은 다음과 같다. 첫째, ODS에 저장된 데이터는 ER 모델링으로 구성되어 있다. 둘째, 데이터의 양은 전체 데이터 웨어하우스의 50% 이상을 차지한다. 셋째, 데이터의 보관 기간은 약 3개월 정도로 유지된다. 넷째, 새로운 주제 영역이 발견되면 ODS에서 해당 데이터를 가져와 SBT(Subject Based Table)에 저장한다.
따라서 ODS는 기업의 운영 시스템에서 생성된 원시 데이터를 RDBMS 내에 저장하고 관리하는 곳으로, 데이터 웨어하우스 구조의 핵심 부분을 담당하고 있다고 볼 수 있다.
2.2. 주제 기반 테이블(SBT)
SBT(Subject Based Table)는 데이터 웨어하우스의 핵심적인 구조 중 하나이다. SBT는 일반적으로 사실 테이블과 차원 테이블로 구성되며, 전체적으로 스타 스키마 형태를 취한다. SBT에서는 Surrogate Key라는 것을 이용하여 데이터의 변경 사항을 보관한다.
퍼시픽 벨의 데이터 웨어하우스 아키텍처를 살펴보면, SBT는 ODS(Operational Data Store)와 데이터 마트를 연결하는 중요한 역할을 한다. ODS에 존재하는 원시 데이터를 일정 기준에 따라 SBT에 전달하고, 이를 기반으로 각종 데이터 마트가 구축된다.
퍼시픽 벨의 SBT는 일반적으로 10개 정도의 차원 테이블을 가지고 있으며, 각 차원 테이블은 다중 계층 구조를 가지고 있다. 예를 들어 조직 차원은 7개의 층, 제품 차원은 6개의 층으로 구성되어 있다. 이는 데이터에 대한 다양한 분석 관점을 지원하기 위한 것이다.
SBT는 단순히 원시 데이터를 저장하는 것이 아니라, 데이터의 변경 내역을 관리하는 역할도 수행한다. 퍼시픽 벨의 경우 실제 사용자가 데이터 웨어하우스의 데이터를 직접 액세스하는 것을 금지하고 있는데, 이는 SBT에 데이터 변경 내역이 저장되어 있기 때문이다. 이를 통해 데이터의 무결성과 추적성을 확보할 수 있다.
SBT는 기업의 주요 의사결정을 지원하기 위한 데이터 구조이다. 퍼시픽 벨의 경우 SBT를 기반으로 각종 데이터 마트를 구축하여 서비스별 이익률 분석, 우수고객 분석, 리스크 분석 등 다양한 분석 업무를 수행하고 있다. 이를 통해 기업의 경쟁력 확보와 효율적인 의사결정을 지원하고 있다.
2.3. 데이터 마트
데이터 마트는 데이터 웨어하우스의 하위 개념이다. 데이터 마트는 데이터 웨어하우스로부터 데이터를 추출하여 부서나 개인이 필요로 하는 목적에 맞게 구축된 작은 규모의 데이터베이스를 의미한다.
데이터 마트는 특정 부서나 작업그룹의 요구사항에 맞추어 설계되어 있어 부서별로 데이터 액세스와 분석이 용이하다. 데이터 웨어하우스의 방대한 데이터를 전체적으로 다루기는 어려울 수 있으므로 데이터 마트는 이를 특정 주제나 부서별로 나누어 관리할 수 있게 한다.
또한 데이터 마트는 데이터 웨어하우스에 비해 구축 기간이 짧고 비용이 저렴하다는 장점이 있다. 데이터 웨어하우스를 먼저 구축하고 그 하위에 필요한 데이터 마트들을 순차적으로 구축하는 방식으로 진행되는 것이 일반적이다.
데이터 마트의 가장 큰 특징은 사용자 중심의 설계라고 할 수 있다. 즉, 특정 부서나 개인의 요구사항을 반영하여 설계되므로 사용자 편의성이 높다. 이에 따라 사용자는 데이터 웨어하우스보다 데이터 마트에 더 친숙하게 다가갈 수 있다.
데이터 웨어하우스와 데이터 마트의 관계를 살펴보면, 데이터 웨어하우스는 기업 전체의 데이터를 통합하여 관리하는 중앙집중식 데이터 보관소이고, 데이터 마트는 이를 부서별 또는 주제별로 세분화한 것이라고 할 수 있다. 따라서 데이터 마트는 데이터 웨어하우스의 일부분이자 하위 개념이라고 볼 수 있다.
3. 데이터 웨어하우스의 프로젝트 관리
3.1. 사업 목표 수립
데이터 웨어하우스의 프로젝트 관리에서 가장 중요한 단계는 사업 목표를 명확히 수립하는 것이다. 사업 목표 수립은 데이터 웨어하우스 구축 프로젝트의 성공적인 추진을 위한 기반이 되며, 모든 후속 활동의 방향을 제시한다.
기업이 데이터 웨어하우스를 구축하고자 하는 이유는 대부분 기존 정보시스템의 문제를 해결하고 보다 효과적인 경영 의사결정을 지원하기 위해서이다. 따라서 사업 목표는 이러한 기업의 요구사항을 반영하여 구체적이고 명확하게 정의되어야 한다. 일반적으로 데이터 웨어하우스 구축의 대표적인 사업 목표는 다음과 같다.
첫째, 기업 내 분산된 데이터를 통합하고 일관된 정보를 제공하여 경영 의사결정을 지원하는 것이다. 기업은 오랜 기간 동안 부서별로 독립적으로 구축된 정보시스템으로 인해 데이터의 중복과 불일치 문제를 겪어왔다. 데이터 웨어하우스는 이러한 문제를 해결하고 경영층에게 통합된 정보를 제공함으로써 신속하고 정확한 의사결정을 지원할 수 있다.
둘째, 고객 및 시장 분석을 강화하여 기업의 경쟁력을 제고하는 것이다. 데이터 웨어하우스에 축적된 거래 정보, 고객 정보, 시장 정보 등을 바탕으로 고객 세분화, 고객 행동 패턴 분석, 마케팅 전략 수립 ...