다국어 웹문서에서의 코드 판별 시스템

*종*

개인인증 판매자스토어

최초 등록일: 2008.05.14
최종 저작일: 2008.05; 9페이지/ MS 워드; 가격 2,000원

다운로드

장바구니

상세정보
자료후기 (0)
자료문의 (0)
판매자정보

소개글

다국어 웹문서에서의 코드 판별 시스템

1. 서론
2. 문제정의
2.1. 한중일 코드셋의 판별 문제
2.2. 한중일 코드셋
3. 코드 판별문제에 n-gram 모델 적용 방식
3.1. n-gram 모델
3.2. statistical estimator
3.3. discounting method
3.4. 코드셋 인식문제의 적용
4. 시스템 구성도
5. 평가 및 토의
6. 결론 및 향후 고려사항

본문내용

1. 서론
최근 들어 정보검색 시스템은 영어 위주의 질의어 선정 및 문서검색에서 점차 다양한 국가의 질의어와 웹문서를 대상으로 하는 다국어 정보검색 시스템의 기술이 도입되고 있으며, 그 관심이 증대되고 있다. 다국어 정보검색 시스템에서 주요한 문제는 사용자의 질의어를 받아들여 해당하는 외국어로 번역하는 질의어 번역 문제나 검색 결과로 받아온 외국어 문서를 어떻게 번역하는가 하는 결과 문서 번역 문제 등이 대두된다. 질의어나 검색문서의 번역 문제 외에도 검색문서를 원문 그대로 보여주려고 할 때, 어떻게 검색문서를 원래의 코드셋에 맞게 보여주는가 하는 문제가 있다. 이는 각 나라에서 각각의 내부적인 사정에 적절한 코딩 시스템을 채택하고 있기 때문이다.

이에 대한 근본적인 해결책으로 유니코드 등과 같은 표준화 방안이 논의되고 있으나, 전세계의 대부분의 문서가 이러한 유일한 표준화된 코딩 방식으로 인코딩되기에는 상당 시간이 걸릴 것으로 예상된다. 언어와 코딩시스템이 확정되지 않은 경우 여러 가지 애매성 문제가 발생한다. 예를 들어, 유럽쪽은 주로 ISO-8859-1 (ISO-LATIN-1) 을 주로 사용하지만 한국의 경우 EUC-KR 방식을 사용하게 된다. 이 때 같은 코드 스트링에 대해 다른 코딩시스템이 적용 가능하다는 점을 들 수 있다. 또한, “ESC $ b” 패턴으로 시작되는 것은 ISO-2022 방식으로 인코딩되어 한국어를 포함할 수 있다. 하지만, 단순한 패턴매칭으로는 일본어 EUC 와 한국어 EUC 코딩시스템 등을 구별하기가 어려운 문제가 발생하게 된다. 따라서, 일련의 코드열로부터 코딩 시스템을 판별하는 것은 보다 지능적인 시스템을 요구하게 된다.

참고 자료

없음

환불정책

해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.

파일오류	중복자료	저작권 없음	설명과 실제 내용 불일치
파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우	다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함)	인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우	자료의 설명과 실제 자료의 내용이 일치하지 않는 경우

이런 노하우도 있어요!더보기

찾던 자료가 아닌가요?아래 자료들 중 찾던 자료가 있는지 확인해보세요

빅데이터 활용사례와 효과분석 및 미래전망 8페이지

캐나다 의회의 '수백만 건'의 문서를 활용하여 영어-불어 자동번역 시스템개발을 ... 마이닝(WebMining), 특정 서비스 및 상품에 대한 사용자의 의견을 판별하는 ... 해커의 공격 여부를 확인하기 위해서는 내부 PC가 악성코드에 감염됐는지,