PageRank,형태소처리,패턴매칭에 대해서(지능시스템론)
- 최초 등록일
- 2008.06.09
- 최종 저작일
- 2008.05
- 20페이지/ 한컴오피스
- 가격 2,500원
소개글
지능시스템론 과목
PageRank, 형태소처리, 패턴매칭에 대해서
기술하였습니다.
레포트로 좋은 자료이고, 구글의 PageRank방법에 대해서 상세히 기술되어 있습니다.
저도 레포트로 제출하였던 것이고,
여러분께도 좋은 자료가 되었으면 좋겠습니다.
수고하세요^^
목차
1. Page Rank
2. 캐릭터 패턴 매칭
3. 형태소 처리
1)TRIE
2)태깅
3)파싱
본문내용
페이지 랭크(Page Rank)의 주된 목표는 웹 검색 엔진의 질적인 면을 개선하고자 하는 것입니다. 초기에는 완전한 검색 엔진 색인화를 통해서 어떠한 정보라도 쉽게 찾을 것이라고 생각했었지만 최근 검색 엔진을 사용해 보면 쓰레기 검색 결과(Junk results)들이 원래 내가 찾고자 했던 검색 결과를 압도하는 경우를 자주 볼 수 있습니다. 심지어 어떠한 검색 엔진에서는 그것의 서비스를 조회했음에도 불구하고 상위 검색 결과 안에 그 결과가 나오지 않는 경우도 많이 발생합니다. 웹상의 문서는 기하급수적으로 증가하고 있지만 사용자들은 검색되어 나온 결과 중 수십 개 정도만 찾으려 합니다. 페이지 랭크(Page Rank)는 이러한 검색 품질의 질을 개선 하고자 한 방법입니다.
문자열 패턴 매칭은 입력으로서 텍스트 T 와 패턴 P 가 주어진다.
둘은 문자열이며, 프로그램상에서는 문자의 배열로 표현될 수 있다.
하고싶은 일은, 텍스트에서 패턴이 나타나는 모든 위치를 찾아내는 것이다.
예를들어 텍스트 abababc이고 패턴이 aba라면 답은 첫번재와, 세번째 위치이다.
간단히 생각할 수 있는 알고리즘이라면 다음과 같습니다.
텍스트의 길이는 n으로 표시하며 패턴의 길이는 m으로 표시한다.
한국어는 교착어로서 문장의 단위라 할 수 있는 어절이 어휘 형태소와 문법 형태소의 결합으로 이루어져 있으며, 문법 형태소가 문장에서의 문법적 기능을 지시하는 특징을 가지고 있다. 따라서 문장에서 어떤 단어의 문법적 기능을 알기 위해서는 무엇보다도 어절을 형태소 단위로 분리하는 작업이 선행 되어야 한다. 이는 기계번역 또는 정보검색, 혹은 그 밖의 어떠한 한국어 처리를 바탕으로 하는 응용 시스템에 있어서도 필수적으로 요구되는 단계이다. 이 때, 분석을 위해 필요한 최소단위가 형태소 이므로 이를 ‘형태소 분석’ 이라고 한다.
형태소를 분석하는 문제는 곧 형태소 분리의 문제가 된가 따라서 이들을 형태소 분리(morphological segmentation) 혹은 단어 분리(word seg mentation)라 하기도 한다.
참고 자료
없음