통화패턴의 이상탐지를 통한 서비스 품질개선 방안 (CDR을 통한 기대효과 연구 )

티에이치지식거래

사업자인증 판매자스토어

최초 등록일: 2012.10.11
최종 저작일: 2012.10; 29페이지/ 한컴오피스; 가격 6,000원

다운로드

장바구니

상세정보
자료후기 (0)
자료문의 (0)
판매자정보

소개글

데이터마이닝의 한 기법인 Random forest를 이용하여 CDR을 분석함으로써 고객 통화패턴의 이상을 탐지하고, 그 고객의 불만사항을 수집하여 문제를 해결한다. 이를 통해 통화 품질 및 기업의 이미지를 개선하고 잠재 이탈 고객을 이탈하지 않도록 할 수 있다.

1. 서론
1.1 문제정의
1.2 설계 주제 및 목적

2. 배경
2.1 관련 기술 동향
2.2 관련 기술의 수요 및 전망

3. 제한 요소
3.1 사용자의 요구사항
3.2 동장환경
3.3 개발환경
3.4 사회성

4. 현황분석

5. 선진 사례 분석
5.1 해외 선진 사례 분석

6. 설계 명세
6.1 기능 요구 조건
6.2 프로젝트의 규격 조건

7. 설계
7.1 설계 목표
7.2 설계안
7.3 평가 항목 평가 방법
7.4 대안분석

8. 구현
8.1 구현 방법4
8.1.1 data mining
8.1.2 설문조사
8.2 구현도구

9. 결과
9.1 결과 및 분석
9.1.1 데이터 마이닝 결과
9.1.2 설문조사 결과
9.2 기대 효과

10. 결론
10.1 결론
10.2 결과 분석
10.3 추후 과제

11 참고문헌

본문내용

스마트폰 시대의 개막과 함께 통신사들 사이의 경쟁이 더욱 치열해 지고 있다. 최초의 휴대기기, 요금제, Wifi등 경쟁우위로 작용하던 요소들이 지금은 각 통신사들에게 평준화 되어 제 살 깎아먹기의 수준에 다다르고 있다. 그 중 KT는 스마트폰 판매 초기에는 iPhone 독점 판매 등의 요인에 힘입어 선두 그룹에 있었으나, 최근에는 LTE통신망 주파수 영역과 판매 기기 등의 영역에서 타 기업들에 비해 약세인 모습을 보이고 있다.
본 프로젝트에서는 이러한 상황에서 새로이 경쟁력을 획득하기 위해서는 기존의 경쟁 영역 외의 요소에서 길을 찾아야 한다고 보고, 해외 통신사들의 사례들을 답습하여 빅 데이터 분석에서 그 답을 찾고자한다.

<중략>

◎ 데이터의 전처리
먼저 사용될 데이터를 전처리하는 과정을 거친다. 만일 데이터가 저장되어 있는 그대로 사용한다면 하나의 레코드로 보면 미미한 차이지만 그것이 방대한 데이터가 되면 많은 자원을 사용하게 되므로 목적에 맞게 데이터를 가공하여야 한다.
정제되지 않은 CDR에는 통화와 관련된 다양한 변수가 포함되어있다. 그 중 이번 프로젝트에서 이상탐지에 쓰일 변수인 이름, 통화 건수, 그리고 통화 시간만을 선택하여 추출한다. 또한 민감한 이상탐지가 목적이기는 하나 시간단위의 레코드를 기준으로 이상탐지를 하는 것은 무의미하기 때문에 각 고객들의 데이터를 하루단위로 묶어 이상탐지의 목적에도 맞고 자원도 아낄 수 있도록 한다.
일차적으로 정제된 데이터는 그림 11에서 볼 수 있다. 데이터는 약 1400개의 CDR을 정제한 70개의 레코드로 이루어져 있다.
일차적으로 정제된 데이터에서 각 인물에 대한 분류가 이루어지도록 다시한번 정제과정을 거친다. 먼저 분류가 될 특정고객의 데이터만 추출한 뒤에 R의 randomForest 패키지에는 구분을 위한 데이터 외에는 필요가 없는 이름 변수를 제거한다.
그 후 기계학습에 사용될 트레이닝 데이터와 분류 결과를 시험해 볼 테스트 데이터를 분리한다.
Random Forest는 지도학습(Supervised learning)을 기반으로 하기 때문에 Class를 지정해 주어야 하는데 주어진 데이터는 그동안의 패턴을 나타낼 정상 데이터밖에 없으므로 인위적으로 이상치를 학습시킬 데이터를 생성해야 한다. 이렇게 이진분류에서 인위적으로 상대적인 클래스의 데이터를 생성하는 것을 Artificial contrast라고 한다.
앞서 생성된 트레이닝 데이터와 Artificial contrast의 개념으로 생성된 데이터를 합치고 그에 따른 클래스를 지정해주어야 비로소 데이터의 전처리 과정이 끝난다.

◎ Cutoff value 선정
데이터 전처리 과정이 끝난 뒤에는 cutoff value를 정해 주어 정확한 분류의 기준을 확립해야 한다. randomForest패키지에 앞서 전처리한 데이터와 테스트 데이터를 포함하고 구동시키면 결과 값은 기계학습을 통해 학습된 패턴과 근거하여 테스트 데이터가 가질 클래스들의 확률들이 벡터의 형태로 산출된다.

참고 자료

Wookyeon Hwang et al, Multivariate statistical process control with article contrasts, in IIE Transactions, Taylor and Francis, England, UK, 2007.
고수연, 빅데이터분석, 현장적용하면 효과 만점, 성공사례 외국집중, 컴퓨터월드 IT　DAILY, 2012.02.02.
김지선, [빅데이터, 새로운 미래를 연다]빅 데이터 시대 토종 분석기술 ‘주역’ 부상, 디지털타임스, 2012.04.26.
김치형, ‘빅 데이터’ 산업이 뜬다, 한국경제 TV WOW-TV NEWS, 2012.05.04.
신혜권, ‘KT·SK텔레콤·LG유플러스, 빅데이터 분석으로 수익 창출 나서’, etnews 전자신문,, 2012.04.03.
최상현, KT 와이브로 사각지대 없앤다, 헤럴드 경제, 2012.03.17.
최병정 외 3명, 빅데이터 시대의 CRM을 위한 데이터 분석, Entrue Journal of Information Technology, 2012.
다큐멘터리 시사기획 창, ‘빅 데이터(Big Data), 세상을 바꾸다’, KBS 1TV, 2012.01.31.
유무선통신서비스현황 및 번호이동 현황 통계자료, 한국방송통신위원회, 2012.02.