한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램

최초 등록일
2014.10.30
최종 저작일
2014.01
8페이지/파일확장자 어도비 PDF
가격 4,000원 할인쿠폰받기
판매자한국학술정보(주)
다운로드
장바구니
퀴즈풀이 출석이벤트

* 본 문서는 배포용으로 복사 및 편집이 불가합니다.

서지정보

발행기관 : 한국정보처리학회 수록지정보 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 / 3권 / 7호
저자명 : 박용민 ( Yong Min Park ) , 이재성 ( Jae Sung Lee )

한국어 초록

개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

영어 초록

A named entity recognition method is used to improve the performance of information retrieval systems, question answering systems, machine translation systems and so on. The targets of the named entity recognition are usually PLOs (persons, locations and organizations). They are usually proper nouns or unregistered words, and traditional named entity recognizers use these characteristics to find out named entity candidates. The titles of books, movies and TV programs have different characteristics than PLO entities. They are sometimes multiple phrases, one sentence, or special characters. This makes it difficult to find the named entity candidates. In this paper we propose a method to quickly extract title named entities from news articles and automatically build a named entity dictionary for the titles. For the candidates identification, the word phrases enclosed with special symbols in a sentence are firstly extracted, and then verified by the SVM with using feature words and their distances. For the classification of the extracted title candidates, SVM is used with the mutual information of word contexts.

참고 자료

없음

자료문의

제휴사는 별도로 자료문의를 받지 않고 있습니다.

판매자 정보

한국학술정보(주)는 콘텐츠 제작에 도움이 되는 솔루션을 기반으로 풍부한 문화 콘텐츠를 생성하여 새로운 삶의 가치를 창조합니다.

본 학술논문은 한국학술정보(주)와 각 학회간에 저작권계약이 체결된 것으로 AgentSoft가 제공 하고 있습니다.
본 저작물을 불법적으로 이용시는 법적인 제재가 가해질 수 있습니다.

우수 콘텐츠 서비스 품질인증 획득
최근 본 자료더보기
한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램