위키피디아로부터 한국어-영어 병렬 문장 추출

저작시기 2014.08 |등록일 2014.09.29 파일확장자어도비 PDF (pdf) | 6페이지 | 가격 6,000원
다운로드
장바구니관심자료
상세신규 배너

* 본 문서는 배포용으로 복사 및 편집이 불가합니다.

서지정보

발행기관 : 한국정보과학회 수록지정보 : 정보과학회논문지 : 소프트웨어 및 응용 / 41권 / 8호
저자명 : 김성현, 양선, 고영중

목차

요약
Abstract
1. 서론
2. 관련 연구
3. 제안 방법
4. 실험
5. 추가 실험
6. 결론
References

한국어 초록

본 연구는 ‘위키피디아 데이터를 이용한 병렬 문장 추출’이라는 주제에 대해서, 기존에 해외에서 사용되었던 다양한 방법을 한국어 위키피디아 데이터에 실제로 적용해보고 그 결과를 정리하여 보고한다. 실험 방식은 두 가지로 나눌 수 있는데, 첫 번째는 번역 확률을 이용하는 방법으로 세종 병렬 말뭉치 등의 기존 자원으로부터 번역 확률을 추출하여 사용한다. 두 번째는 사전을 이용하는 방법으로, 위키피디아 타이틀로 구성된 위키 사전(Wiki dictionary)을 기본으로 하여, MRD(machine readable dictionary) 정보와 숫자 사전을 추가로 사용한다. 실험 결과, 기존 자원만 이용한 경우보다 위키피디아 데이터를 결합하여 사용한 경우에 매우 큰 폭의 성능 향상을 얻어, 최종적으로 F1-score 57.6%의 우수한 성능을 산출하였다. 또한 토픽 모델(topic model)을 이용한 실험도 추가로 수행하였는데, F1-score 51.6%로 최종 성능 면에서는 낮았지만 비지도 학습 방법이라는 장점을 고려할 때 추가 연구에 대한 여지가 있다고 볼 수 있다.

영어 초록

This paper conducts a variety of experiments for “the extraction of Korean parallel sentences using Wikipedia data.” We refer to various methods that were previously proposed for other languages. We use two approaches. The first one is to use translation probabilities that are extracted from the existing resources such as Sejong parallel corpus, and the second one is to use dictionaries such as Wiki dictionary consisting of Wikipedia titles and MRDs (machine readable dictionaries). Experimental results show that we obtained a significant improvement in system using Wikipedia data in comparison to one using only the existing resources. We finally achieve an outstanding performance, an F1-score of 57.6%. We additionally conduct experiments using a topic model. Although this experiment shows a relatively lower performance, an F1-score of 51.6%, it is expected to be worthy of further studies.

참고 자료

없음
  • 구매평가(0)
  • 구매문의(0)
      최근 구매한 회원 학교정보 보기
      1. 최근 2주간 다운받은 회원수와 학교정보이며
         구매한 본인의 구매정보도 함께 표시됩니다.
      2. 매시 정각마다 업데이트 됩니다. (02:00 ~ 21:00)
      3. 구매자의 학교정보가 없는 경우 기타로 표시됩니다.
      4. 지식포인트 보유 시 지식포인트가 차감되며
         미보유 시 아이디당 1일 3회만 제공됩니다.

      찾던 자료가 아닌가요?아래 자료들 중 찾던 자료가 있는지 확인해보세요

      상세하단 배너
      우수 콘텐츠 서비스 품질인증 획득
      최근 본 자료더보기
      상세우측 배너
      상세우측 배너
      위키피디아로부터 한국어-영어 병렬 문장 추출
      페이지
      만족도 조사

      페이지 사용에 불편하신 점이 있으십니까?

      의견 보내기