갱서베이1.정의갱서베이는 일반 가구방문조사의 문제점을 보완할 목적으로 개발된 조사 방법으로, 응답자들을 일정한 장소에 모이게 한 후 조사자가 응답자들로부터 자료를 수집하는 조사 방법이다. 이 조사 방법은 신제품이나 광고카피 등의 보조물을 이용해야 하는 조사에 적합하며, 조사목적에 대한 상세한 설명이 이루어진 다음 조사를 진행하기 때문에 조사의 정확성을 유지할 수 있다는 장점이 있다.기존의 서베이 기법들이 가지고 있는 단점을 극복할 수 있는 방법으로, 조사 진행자가 직접 신제품 또는 광고카피 등과 같은 보조물(시제품/사진/슬라이드/비디오 등)을 이용하여 조사 목적에 대한 상세한 설명을 하며, 자료수집 과정에서도 통제가 가능하므로 보다 높은 질의 자료를 수집할 수 있고, 조사 과정이 외부에 유출되는 것을 방지할 수 있다. 서베이 조사에서 수집되는 자료 외에 시제품이나 새로운 광고 카피에 대한 소비자들의 평가와 포장이나 상표 이미지와 관련된 고객들의 반응, 그리고 신제품의 적정 가격 책정 등에 대한 다양한 정보를 제공받을 수 있다.**일반 개별 면접의 문제점을 보완하면서 보다 심층적이고 조사 목적에 부합하는 양질의 자료 수집이 가능2.조사방법갱서베이도 일반적 서베이조사와 마찬가지로 필요한 정보의 결정, 설문지의 작성 및 표본계획의 수립이 먼저 이루어져야 한다. 일반적으로 갱서베이는 서베이조사보다 제품, 광고, 가격 등과 같은 구체적인 마케팅믹스변수들에 대한 소비자들의 반응에 조사의 초점이 집중된다.조사를 진행할 장소를 확보한다. 1회당 표본수는 통제가 용이한 30~50명이 적당하며 이들을 수용할 공간과 보조물을 보여줄 공간 및 경우에 따라 제품테스트를 위한 준비실(예를 들어 식품의 맛테스트를 위한 간단한 취사 및 주방기구) 등이 확보되어야 한다. 제품의 포장ㅇ 대한 테스트에는 가능한 자연광에 유사한 조명시설을 갖춘다. 제품의 맛이나 향에 대한 테스트에는 한기가 잘되어 다른 냄새의 영향을 받지 않는 장소가 적당하다.조사담당 연구원을 보조할 실사진행원들을 선발, 교육한다. 실사지행원들에게 조사의 앤용 및 진행과정 등을 교육하고 실제조사의 앞서 진행과정에 대한 시뮬레이션을 실시하여야 한다.표본계획에 따라 응답대상자들을 모집하나다. 갱서베이는 일정한 시간에 응답자들을 조사장소로 나오게 해야 하므로 추가적인 비용과 노력이 요구된다. 또한 조사에 협조하기로 한 응답자가 조사장소에 나타나지 않는 경우를 대비하여 예비표본을 충분히 확보해야 한다.조사당일에는 조사담당자의 지시에 따라 응답자들은 설문지를 동시에 작성해 나가며 중간에 보조물이 제시된 수 설문작성이 계속 진행된다. 가령 응답자들은 순서대로 식품을 시식하거나 신제품을 관찰한 수 다시 자리에 돌아와 설문에 응답을 하게 된다. 최근에는 응답자가 설문지를 직접 작성하는 대신 진행자가 슬라이드를 통해 보여주는 질문에 대해 기계식 자료입력장치를 응답하도록 하는 방법이 도입되고 있다. 응답결과들은 컴퓨터에 연결되어 조사의 종료와 함께 자료처리가 이루어진다. 소요시간은 참여자들의 협조를 유지할 수 있게 1시간 정도가 적당하다.전체 표본에 대해 자료가 수집될 때까지 위의 과정이 반복된다. 만일 400명의 전체표본에 대해 1회에 40명이 조사될 경우 10번의 갱서베이가 반복되어야 한다. 하루에 3회의 조사가 실시되면 전체조사에 약 4일이 소요될 것이다.3.의견사항첫째, 갱서베이는 마케팅변수들에 대한 구체적인 소비자반응들을 수집할 수 있다는 장점이 있으나 준비과정에 많은 시간과 노력이 요구된다는 단점이 있다. 적절한 조사장소가 확보되어야 하며 보조물이 사용될 경우 조사보조원에 대한 사전교육 및 시뮬레이션이 실시되어야 한다.둘때, 응답자의 모집에 많은 노력과 비용이 든다. 가령 경인지역에서 약 400~500명의 응답자들을 정해진 시간에 정해진 장소에 모이도록 하는 것이 쉽지 않을 것이다. 또한 응답자들에게 서베이조사에 지불되는 수당 이외에 교통비와 사례비를 추가적으로 지불함으로써 표본당 높은 조사비용이 소요된다. 조사대상이 주부인 경우에는 주간의 조사가 큰 문제가 없으나, 남자 직장인의 경우 주간조사가 어려우며 퇴근 후 야간에 조사를 실시해야 된다.CLT(Central Location Test) 조사1.정의CLT조사는 갱서베이와 마찬가지로 응답자를 일정한 장소에 모이게 한 후 시제품, 광고카피 등에 대한 소비자반응을 조사하는 방법으로, Hall Test라 불리어지기도 한다. 갱서베이와 CLT조사 간의 차이점은 갱서베이는 응답자를 정해진 시점에 모두 조사장소로 모이게 하여 동시에 조사를 진행하느데 반해, CLT조사는 각 응답자들을 일정시간내에 자유롭게 조사장소를 방문하도록 하여 조사원과 개인면접형식으로 조사를 진행한다.2.조사방법조사의 진행과정은 개별 면접방식에서 비롯되는 몇가지 차이점들 이외에는 갱서베이 방식과 유사하다. CLT조사는 면접을 담당하는 조사원(4명), 할당된 표본계획에 따라 적절한 응답자를 차고 이들에게 협조를 의뢰하는 인원(3명), 조사장소내의 감독 및 보조물의 준비를 담당하는 인원(4명)을 포함하여 약 10명 정도의 인원을 필요로 한다. CLT조사는 조사장소내에서 조사원별로 조사가 진행되기 때문에 조사에 필요한 보조물들을 조사원의 수만큼 준비하여야 한다. CLT조사는 갱서베이아 비교하여 하루 조사할 수 있는 응답자들(조사원 1인당 5명 정도이며 조사원이 4명인 경우 1일 조사가능응답자들은 20명 정도임)의 수가 매우 적다.면접을 진행하는 조사원들은 특정제품에 대한 전문가가 아니므로 기업에서 제품 또는 광고판촉 등의 실무자가 참석하여 응답자의 어려운 질문에 대비하도록 한다.
확률화응답기법여러 경로로 수집되고 있는 자료에는 개인의 민감한 정보가 포함될 수 있으며, 이를 방지하기 위해 최근에는 랜덤화, 교환 등의 데이터마스킹 방법을 이용하여 개인정보를 은닉하여 공개하고 있다. 확률화응답기법(randomized response technique)은 개인의 민감한 정보를 노출시키지 않으면서 연구자가 필요로 하는 정보를 알아낼 수 있는 조사방법이다. 데이터마스킹 기법으로 은닉된 자료를 데이터마이닝방법으로 분석할 경우 예측력이 떨어지는 측면이 있다. 이를 보완하기 위하여 최근 은닉자료를 분석하기 위한 데이터마이닝 방법론, 즉 개인정보보호 데이터마이닝 기법에 대한 연구가 활발히 진행되고 있다. Du and Zhan(2003)는 RRT에 의하여 개인정보가 은닉된 자료로 부터 트리모형을 구축하는 방법을 제안하였지만 모든 입력변수들이 이진변수인 경우에 적용이 가능하다. 이곳에서 목표변수가 개인의 민감한 정보를 포함하는 경우의 분류모형의 구축방법에 대하여 연구한다. 특히 목표변수가 RRT에 의해 은닉될 경우 트리모형을 기반으로 하는 배깅 모형의 구축방법에 대하여 소개하고 모의 실험을 통하여 제안된 방법이 기존의 배깅 방법에 비해 정확도가 향상됨을 보였다.1. 서론통신과 인터넷이 보편적인 생활 수단이 됨에 따라 방대한 양의 데이터가 웹 혹은 모바일통신 기기를 통하여 여러 경로로 수집되어 데이터베이스에 저장된다. 이와 같이 여러 소스를 통하여 수집되는 데이터는 데이터마이닝 기법을 통하여 유용한 정보로 재가공 되며 이를 필요로 하는 각분야에서 이용되고 있다. 데이터마이닝 기법의 적용대상이 되는 원시자료(raw data)에는 개인의 사생활이 침해소지가 있는 많은 개인정보들을 포함하고 있다. 여러 목적으로 수집된 원시자료를 그대로 공개할 경우 자료에 포함되어 있는 민감한 개인정보가 노출될 위험성이 있다. 이를 방지하기 위하여 원시자료에 있는 개인의 사적 정보를 은닉시키기 위한 방법으로 개인의 민감한 자료에 대하여 랜덤화(random perturbation), 블록화(blocking), 교환(data swapping) 등과 같은 데이터마스킹(data masking) 기법들이 활용되고 있다.(Willenborg and waal, 1996, 2001)대부분의 통계적 모형 혹은 데이터마이닝 기법들을 통해서 얻어지는 예측모형은 원시자료 그대로 이용한다는 전제에서 의미가 있다. 만일 분석자가 데이터 마스킹 기법에 의해 은닉된 자료를 제공받을 경우, 분석자가 정보의 은닉 메커니즘을 이해하여 활용하지 않고 기존의 분석방법을 이용한다면 결과적으로 얻어진 예측모형은 그 정확성을 신뢰받기가 어렵게 될 뿐만 아니라 모형에 대한 해석도 정당성을 부여받기가 힘들어지게 된다. 원시자료를 은닉하여 분석자에게 제공할 경우, 개인의 민감한 정보를 보호하는 데는 도움이 되지만 기존의 방법에 의하면 상당 부분 예측력의 손실을 가져올 수 밖에 없다. 이에 따라 개인의 민감한 정보를 보호하면서 분석모형의 예측력 손실을 최소화하기 위한 분석 방법에 대한 개발이 요구되고 있다. 이 두 가지의 상충되는 요구를 해결하기 위한 데이터마이닝의 한 연구 분야를 개인정보보호 데이터마이닝(PPDM, privacy preserving data mining)이라고 한다.(Agrawal and Srikant, 2000 : Verykios et al., 2004). 이 분야는 최근 미국에서 데이터마이닝 기법에서 개인의 정보보호를 위한 법안(Data Mining Moratorium Act, Data Mining Reporting Act)을 준비함으로써 중요성 및 시급성이 증대되고 있는 실정이다. 데이터마이닝 분야에서 PPDM에 대한 연구는 랜덤화(random perturbation)를 통한 변형된 자료에서 연관규칙(association rules)을 탐사하는 방법(Agrawal and Srikant, 2000)을 시초로 하여 트리모형(Du and Zhan, 2002, 2003: Lindell and Pinkas, 2002: Du et al., 2004), SVM(Yu et al., 2006), 군집분석 및 그리고 이상치 검출에의 적용(Vaidya, 2003: Oliveira, 2004: Jagannathan and Wright, 2005) 등 다양한 방법들이 활발하게 연구되고 있다.원시자료에서 개인정보를 은닉하는 방법으로 민감한 질문에 대한 전통적인 조사방법 중의 하나인 Wamer(1965)의 확률화응답기법(RRT: randomized response technique)을 이용할 수도 있다. RRT는 랜덤화 기법에 비해서 개인정보의 은닉정도를 조절할 수 있다는 점에서 데이터마스킹을 위한 좋은 대안이 될 수 있다.(Kooiman, 1997) PPDM에 대한 연구 중 Du and Zhan(2002, 2003)과 Du et al.(2004)은 RRT에 의하여 개인의 민감한 정보가 은닉될 경우, 이 은닉된 자료로 부터 트리모형을 구축하는 알고리즘을 제안하였다. 하지만, 그들의 방법은 모든 입력변수들이 이진변수인 경우에 한하여 적용이 가능하고, 단일그룹설계(one-group scheme)인 경우에만 적용이 가능하다는 단점이 있다. 대부분의 분류모형에서는 입력변수보다는 목표변수가 더 중요하며, 목표변수에 개인의 민감한 정보가 포함도리 가능성이 높다.2. 확률화응답기법확률화응답기법(RRT)은 개인의 민감한 정보를 노출시키지 않으면서 원하는 정보를 수집할 때 사용되는 Warner(1965)가 제안한 방법이다. 만일 응답자가 두 그룹(A,A여)중 하나의 그룹에 속한다고 하고 그 중 A는 사적으로 민감한 그룹이라고 하자. 민감한 그룹에 속한 응답자의 비율(ㅠA)을 알기 위하여 조사자는 다음과 같이 서로 상반된 두가지 질문을 준비한다.Q1: 당신은 그룹 A에 속합니까?Q2: 당신은 그룹 A에 속하지 않습니까?이 때, 응답자는 미리 정해진 확률에 따라 Q1 혹은 Q2를 선택하여 응답한다. 이런 방법 에 의하면 응답자가 "yes"라고 대답할 확률은 아래와 같다.이진변수에 대한 Warner(1965)의 RRT가 제안된 이후, 여러 학자들이 민감한 질문에 대한 응답이 다범주(multicategory)인 경우로 확장 및 이에 대한 이론적인 연구를 하였다.(Abul-Ela et al., 1967: Bourke and Dalenius, 1976: Chaudhuri and Mukerjee, 1988: Kim and Warde, 2005).다범주에 대한 RRT에서 우리는 민감한 질문에 대한 직접적인 응답(Y) 대신에 변형된 응답 Y*을 얻으며 Y*=k 의 확률은 다음과 같이 표현된다.3. 실용방안혹률화응답기법의 이론적 우수성을 입증하기 위한 많은 연구들이 수해오디고 이의 타당성이 인정되고 있으나 이 이론을 실제 문제에 적용하는데 있어서는 많은 사람들이 주저하게 된다. 민감한 질문에 대하여는 대체로 확률화 응답모형이 종전의 조사방법보다 우수하나 그렇지 않은 경우에는 방법들 간의 차가 없다고 보여지며 오히려 문제점만더 첨부된다. 따라서 확률화응답기법의 보다 활발한 적용과 정확한 정보를 얻기 위해서는 다음과 같은 과정을 거쳐 실제 조사를 수행하는 것이 바람직하다.