[R & E 활동 대회] 다중 연결 리스트(Multi-Linked List)를 이용한 자연어 처리 방법론 연구
- 최초 등록일
- 2023.07.31
- 최종 저작일
- 2023.07
- 20페이지/ 한컴오피스
- 가격 5,000원
소개글
"[R & E 활동 대회] 다중 연결 리스트(Multi-Linked List)를 이용한 자연어 처리 방법론 연구"에 대한 내용입니다.
목차
제1장 서론
1.1 연구 배경 및 목적
1.2 연구범위 및 방법
제2장 관련 연구
2.1 2-레벨 형태론(two-level model)기반 기법
2.2 다중 형태론 기반 기법
2.3 다중 연결 리스트
2.4 데이터 마이닝
2.4.1 데이터 범주화
2.4.2 데이터 추출
2.4.3 클러스터링(clustering)
제3장 문서 분류 실험
3.1 형태소 분석 방법론
3.2 데이터마이닝 방법론
3.3 실험결과
제4장 결론 및 향후 연구
참고 문헌
본문내용
1.1 연구 배경 및 목적
텍스트 마이닝은 텍스트 데이터를 대상으로 하여 그들 간의 암묵적인 정보를 추출하는 과정으로 정의할 수 있다. 현재 4차 산업혁명이 도래함에 따라 다량의 데이터가 발생하고 있으며, 이러한 데이터 중에는 사실을 기반으로 작성된 데이터도 존재하지만 그렇지 않은 데이터도 존재한다. 부정확한 데이터는 데이터 소비자의 판단에 혼란을 발생시킬 수 있다. 최근 이를 방지하기 위해 다양한 사실확인 기법이 개발되었으며 실시간 사실확인까지 가능한 수준에 이르렀다. 하지만, 이러한 기술은 영어에 관해서만 가능하다는 한계점을 가지고 있다. 단어 단위로 분석하기 적합한 서양 언어와 다르게 한국어는 의미 단위의 다른 개념을 가지게 되어 텍스트 마이닝에 난제를 포함하고 있기 때문이다. 현재 한글을 기반으로 하는 사실확인 기법은 사람이 직접 반박 자료를 탐색하며 진행되기 때문에 시간이나 비용 면에서 비효율적인 측면을 가지고 있다.
따라서 본 연구팀은 한글 태그를 이용한 한글 형태소 분석을 기반으로 하는 뉴스 기사 진위 판단 알고리즘을 구연하여 소비자의 판단에 도움을 제공하는 목적으로 한다.
1.2 연구범위 및 방법
본 연구팀이 실행한 연구는 뉴스 기사 빅 데이터를 이용하여 텍스트마이닝 기법을 통하여 문장 내의 단어 간 관계를 획득하고, 그러한 관계를 바탕으로 새로운 테스트 데이터가 입력되었을 때 테스트 데이터 내부의 단어 간 관계를 정량적으로 계산하여 정확도를 산출하는 방식으로 진행하였다. 학습 데이터 내부의 단어 간 연결을 구체화하기 위하여 본 연구팀은 여러 가지 자료 구조를 염두에 두고 연구를 진행하였고, 다음과 같은 방식들로 구체화하였다.
1. 링크드 리스트(Linked List)를 이용한 단어 간의 연결
2. 2차원 배열을 이용한 단어 간의 연결성 파악
첫 번째로 고안한 링크드 리스트를 이용한 단어 간의 연결성 파악은 다음과 같이 구성된다. 연결 리스트는 각 데이터를 포인터로 연결하여 관리하는 구조다.
참고 자료
박진우, 고영중, 서정연, “문서 요약 기법을 이용한 자동문서 범주화, 제13회 한글 및 한국어 정보처리 학술대회, 2001
나윤재. “변형 나이브 베이즈 분류기를 이용한 자동 문서 분류에 관한 연구”, 연세대학교 공학대학원 2008학년도 석사학위 청구논문, 2008
이화림. "분류 정보 모형에 기반한 한글 자동 문서 범주화", 이화여자대학교 정보과학대학원 1998학년도 석사학위 청구논문, 1999
백용규.“한글 인터넷 뉴스 기사 자동 분류 시스템에 관한 연구”, 고려대학교 대학원, 2003
한빛아카데미, “컴퓨터 개론”, 2013