[텍스트 마이닝]텍스트마이닝(Text Mining)
*승*
다운로드
장바구니
소개글
텍스트마이닝은 비구조화된 텍스트 정보 자료에서 흥미롭거나 유용한 패턴을 찾아내는 과정이다[Dixon97]. 데이터마이닝이 보통 수량적으로 구조화된 데이터에서 지식을 발견하기 위해 통계적, 기계학습적 알고리즘을 적용하는 기법이라면 텍스트마이닝은 비구조화된 텍스트 문서에서 정보를 찾아내려는 기법이다. 문헌에 따라서 텍스트마이닝은 KDT(Knowledge Discovery in Textual Database), 도큐먼트 마이닝(Document Mining) 등으로 불리기도 한다.텍스트마이닝은 데이터마이닝 방법과 정보 추출, 정보 검색, 자연어처리, 문서 요약 등의 기법들을 결합시킨다. 텍스트마이닝의 적용의 핵심은 대량의 텍스트로부터 과거에 알려지지 않은 숨겨진 지식을 찾아내는 것이다.
텍스트마이닝은 정보 추출, 정보 검색 분야와 긴밀한 관련이 있고 이러한 작업을 수행하기 위한 요소로부터 구축된다고 생각할 수도 있다. 지식을 추출하는 과정에서 검색 과정과 추출 과정은 하나의 전처리 과정으로 통합될 수 있다.
1. 정보 검색: 첫번째 단계에서는 작업에 관련된 문서의 위치를 파악하고 검색한다. 일반적으로 사용자들은 문서 집합을 정의하지만 관련 없는 문서를 제거하는 시스템이 필요하다.
2. 정보 추출: 다음 단계에서는 선택된 문서로부터 정보를 추출한다. 정보추출은 기대되는 정보에 대한 사용자 정의의 Template를 충족시키는 것이다.
3. 정보 마이닝: 각 문서에 대한 Template 내용이 채워지면 일반 데이터마이닝 기법을 적용할 수 있는 데이터베이스를 갖게 된다. 이 단계에서 데이터 내의 패턴을 찾아낸다.
4. 해석: 마지막 단계에서는 마이닝 단계로부터 발견된 패턴을 해석한다.
텍스트 마이닝에 대한 어려움은 컴퓨터에 의해 비구조화된 텍스트 형식의 정보에 대한 사용 접근이 용이하지 않다는 것이다. 텍스트는 사람이 읽기 위해 쓰여졌기 때문에 자연어 해석 처리가 필요하다. 제한되지 않은 자연어의 실제 지식에 대한 완전한 해석이 현재 기술로 여전히 불가능하지만 패턴 인식 기술과 임의의 자유 형식 텍스트로부터 가치 있는 비트(bit)를 추출할 수 있는 휴리스틱한 기술이 있다.
텍스트마이닝은 데이터 준비 단계에 데이터마이닝보다 훨씬 더 복잡한 특성 추출(Feature Selection) 기능이 추가된다. 즉, 텍스트에서 지식을 발견하기 전에 텍스트로부터 반드시 몇몇 구조화된 정보를 추출하여야 한다. 비구조화된 문서에서 특성 추출을 위해 가장 많이 사용되는 방법이 벡터 표현법인데 벡터 표현법은 각 문서를 특성(Feature)이라고 불리는 단어의 벡터 값으로 나타내는 방법이다. 벡터 값은 단어의 존재 여부에 따라 0, 1의 이산형으로 표현할 수도 있고 단어가 나타나는 빈도수로 표현할 수도 있다. 그 외에도 단어의 위치, 문자열, 구를 기준으로 표현하거나 문서의 범주, 사람 이름 등 개체를 사용하여 표현할 수도 있다.
목차
1. 텍스트마이닝 기법1.1 에피소드와 에피소드 규칙
1.2 개념 계층
1.3 자연어 처리 시스템
1.4 연관규칙과 순차패턴 접근
1.5 신경망 접근
본문내용
텍스트마이닝은 비구조화된 텍스트 정보 자료에서 흥미롭거나 유용한 패턴을 찾아내는 과정이다[Dixon97]. 데이터마이닝이 보통 수량적으로 구조화된 데이터에서 지식을 발견하기 위해 통계적, 기계학습적 알고리즘을 적용하는 기법이라면 텍스트마이닝은 비구조화된 텍스트 문서에서 정보를 찾아내려는 기법이다[BST99]. 문헌에 따라서 텍스트마이닝은 KDT(Knowledge Discovery in Textual Database), 도큐먼트 마이닝(Document Mining) 등으로 불리기도 한다[FD95, Dixon97].텍스트마이닝은 데이터마이닝 방법과 정보 추출, 정보 검색, 자연어처리, 문서 요약 등의 기법들을 결합시킨다. 텍스트마이닝의 적용의 핵심은 대량의 텍스트로부터 과거에 알려지지 않은 숨겨진 지식을 찾아내는 것이다.
텍스트마이닝은 정보 추출, 정보 검색 분야와 긴밀한 관련이 있고 이러한 작업을 수행하기 위한 요소로부터 구축된다고 생각할 수도 있다. 지식을 추출하는 과정에서 검색 과정과 추출 과정은 하나의 전처리 과정으로 통합될 수 있다.
1. 정보 검색: 첫번째 단계에서는 작업에 관련된 문서의 위치를 파악하고 검색한다. 일반적으로 사용자들은 문서 집합을 정의하지만 관련 없는 문서를 제거하는 시스템이 필요하다.
2. 정보 추출: 다음 단계에서는 선택된 문서로부터 정보를 추출한다. 정보추출은 기대되는 정보에 대한 사용자 정의의 Template를 충족시키는 것이다.
3. 정보 마이닝: 각 문서에 대한 Template 내용이 채워지면 일반 데이터마이닝 기법을 적용할 수 있는 데이터베이스를 갖게 된다. 이 단계에서 데이터 내의 패턴을 찾아낸다.
4. 해석: 마지막 단계에서는 마이닝 단계로부터 발견된 패턴을 해석한다.
텍스트 마이닝에 대한 어려움은 컴퓨터에 의해 비구조화된 텍스트 형식의 정보에 대한 사용 접근이 용이하지 않다는 것이다. 텍스트는 사람이 읽기 위해 쓰여졌기 때문에 자연어 해석 처리가 필요하다. 제한되지 않은 자연어의 실제 지식에 대한 완전한 해석이 현재 기술로 여전히 불가능하지만 패턴 인식 기술과 임의의 자유 형식 텍스트로부터 가치 있는 비트(bit)를 추출할 수 있는 휴리스틱한 기술이 있다.
참고 자료
[김양욱98] 김양욱 편, “업무혁신을 위한 ERP”, 21세기북스, 1998.[김영만98] 김영만, “통신서비스 시장에서 데이터마이닝을 이용한 이탈고객 분석”, 한국과학기술원 석사논문, 1998.
[노형진99] “다변량 데이터의 통계분석”, 석정, 1999.
[민재형00] 민재형, 이영찬, “자기조직화 신경망을 이용한 경쟁적 벤치마킹”, 한국지능정보시스템학회 2000년 가을 학술대회, 2000.
[박종수98] 박종수, “연관 규칙 탐사 알고리즘에 대한 조사”, 6월, 1998.
[전수경99] 전수경, “숨어있는 정보를 찾아라-데이터마이닝 기지개”, 경영과 컴퓨터, 11월, 1999.
[송희경99] 송희경, “지식경영 시각으로 조명하는 신 패러다임-지식관리시스템”, 마이크로소프트웨어, 8월, 1999.
이 자료와 함께 구매한 자료
- [공학]데이타 마이닝 - 의사결정트리 28페이지
- 시소러스 5페이지
- [데이터마이닝][데이터마이닝기술][데이터마이닝기법]데이터마이닝의 개념, 데이터마이닝의 특징, 데.. 11페이지
- 웹마이닝[데이타마이닝] 54페이지
- [데이터 마이닝] 텍스트 마이닝을 이용한 문서 검색 시스템의 구현 27페이지