문헌 클러스터링
- 최초 등록일
- 2015.10.09
- 최종 저작일
- 2015.08
- 14페이지/ 한컴오피스
- 가격 1,000원
* 본 문서는 한글 2005 이상 버전에서 작성된 문서입니다.
한글 2002 이하 프로그램에서는 열어볼 수 없으니, 한글 뷰어프로그램(한글 2005 이상)을 설치하신 후 확인해주시기 바랍니다.
소개글
자동분류의 두 개의 범주인 클러스터링과 범주화(categorization) 중 클러스터링에 관한 내용 정리
목차
1. 자동분류 개요
2. 문헌 클러스터링 개요
3. 문헌 간 유사도 측정
4. 클러스터링 기법
5. 계층적 클러스터링
6. 클러스터 유사도 산출방법
7. 비계층적 클러스터링
8. 비계층적 알고리즘
9. 클러스터링의 타당성 및 성능평가
본문내용
자동분류(automatic classification)란 분류 알고리즘에 의해 대상물(object, items)들을 유사한 패턴을 갖는 것끼리 모아 집단화하는 작업을 말한다. 자동분류의 대상물과 목적은 적용 분야에 따라서 다양한데, 정보검색 분야에서는 주로 문헌이나 용어가 분류 대상물이 된다. 문헌의 자동분류는 유사한 내용의 문헌들을 미리 집단화함으로써 검색을 용이하게 하려는 목적을 갖고 있으며, 용어의 자동분류는 용어 클래스들을 생성함으로써 자동 시소러스를 작성하거나 또는 검색 시 질의어와 유사한 용어 클래스의 다른 용어들을 질의에 추가함으로써 검색 성능을 향상시키려는 목적을 갖고 있다.
문헌의 자동분류에 대한 연구는 1960년대에 시작되어 1980년대까지는 실험적인 수준을 벗어나지 못하였으나, 1990년대 이후 컴퓨터 처리 능력이 급격히 발전하고 웹 환경으로 인해 접근 가능한 정보가 폭발적으로 증가함에 따라 관련 연구가 크게 활성화되고 있다.
문헌의 자동분류는 사전(a priori) 분류체계의 활용 여부에 따라 두 가지 유형으로 구분된다(Dattola 1969). 첫째는 사전 분류체계가 없이 문헌 간의 유사성에 근거하여 유사한 내용의 문헌들의 집단을 형성하는 문헌 클러스터링(document clustering)이며, 둘째는 기계학습(machine learning) 방법에 의해 각 문헌을 사전 분류체계의 가장 적절한 주제범주에 배정하는 텍스트 범주화(text categorization)이다.
텍스트 범주화는 각 범주를 대표하는 이름(class label)과 학습 데이터를 사용하므로 지도학습(supervised learning) 분류라고 하며, 문헌 클러스터링은 학습 데이터(training data)를 필요로 하지 않으므로 비지도 학습(unsupervised learning) 분류라고 한다(Manning and Schutze 1999).
텍스트 범주화에서는 문헌과 사전 분류범주와의 유사도를 계산하여 문헌에 유사도가 가장 큰 상위 n개의 분류범주에 중복적으로 배정할 수 있지만, 문헌 클러스터링은 중복분류를 허용하지 않는다(노정순, 2011).
참고 자료
없음