다국어 웹문서에서의 코드 판별 시스템
- 최초 등록일
- 2008.05.14
- 최종 저작일
- 2008.05
- 9페이지/ MS 워드
- 가격 2,000원
소개글
다국어 웹문서에서의 코드 판별 시스템
목차
1. 서론
2. 문제정의
2.1. 한중일 코드셋의 판별 문제
2.2. 한중일 코드셋
3. 코드 판별문제에 n-gram 모델 적용 방식
3.1. n-gram 모델
3.2. statistical estimator
3.3. discounting method
3.4. 코드셋 인식문제의 적용
4. 시스템 구성도
5. 평가 및 토의
6. 결론 및 향후 고려사항
본문내용
1. 서론
최근 들어 정보검색 시스템은 영어 위주의 질의어 선정 및 문서검색에서 점차 다양한 국가의 질의어와 웹문서를 대상으로 하는 다국어 정보검색 시스템의 기술이 도입되고 있으며, 그 관심이 증대되고 있다. 다국어 정보검색 시스템에서 주요한 문제는 사용자의 질의어를 받아들여 해당하는 외국어로 번역하는 질의어 번역 문제나 검색 결과로 받아온 외국어 문서를 어떻게 번역하는가 하는 결과 문서 번역 문제 등이 대두된다. 질의어나 검색문서의 번역 문제 외에도 검색문서를 원문 그대로 보여주려고 할 때, 어떻게 검색문서를 원래의 코드셋에 맞게 보여주는가 하는 문제가 있다. 이는 각 나라에서 각각의 내부적인 사정에 적절한 코딩 시스템을 채택하고 있기 때문이다.
이에 대한 근본적인 해결책으로 유니코드 등과 같은 표준화 방안이 논의되고 있으나, 전세계의 대부분의 문서가 이러한 유일한 표준화된 코딩 방식으로 인코딩되기에는 상당 시간이 걸릴 것으로 예상된다. 언어와 코딩시스템이 확정되지 않은 경우 여러 가지 애매성 문제가 발생한다. 예를 들어, 유럽쪽은 주로 ISO-8859-1 (ISO-LATIN-1) 을 주로 사용하지만 한국의 경우 EUC-KR 방식을 사용하게 된다. 이 때 같은 코드 스트링에 대해 다른 코딩시스템이 적용 가능하다는 점을 들 수 있다. 또한, “ESC $ b” 패턴으로 시작되는 것은 ISO-2022 방식으로 인코딩되어 한국어를 포함할 수 있다. 하지만, 단순한 패턴매칭으로는 일본어 EUC 와 한국어 EUC 코딩시스템 등을 구별하기가 어려운 문제가 발생하게 된다. 따라서, 일련의 코드열로부터 코딩 시스템을 판별하는 것은 보다 지능적인 시스템을 요구하게 된다.
참고 자료
없음