부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석
- 최초 등록일
- 2021.02.04
- 최종 저작일
- 2021.02
- 8페이지/
어도비 PDF
- 가격 4,000원

판매자한국학술정보(주)

* 본 문서는 배포용으로 복사 및 편집이 불가합니다.
서지정보
ㆍ발행기관 : 한국정보처리학회
ㆍ수록지정보 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 / 10권 / 1호
ㆍ저자명 : 조단비 ( Dan Bi Cho ) , 이현영 ( Hyun Young Lee ) , 정원섭 ( Won Sup Jung ) , 강승식 ( Seung Shik Kang )
한국어 초록
뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.
영어 초록
In the political field of news articles, there are polarized and biased characteristics such as conservative and liberal, which is called political bias. We constructed keyword-based dataset to classify bias of news articles. Most embedding researches represent a sentence with sequence of morphemes. In our work, we expect that the number of unknown tokens will be reduced if the sentences are constituted by subwords that are segmented by the language model. We propose a document embedding model with subword tokenization and apply this model to SVM and feedforward neural network structure to classify the political bias. As a result of comparing the performance of the document embedding model with morphological analysis, the document embedding model with subwords showed the highest accuracy at 78.22%. It was confirmed that the number of unknown tokens was reduced by subword tokenization. Using the best performance embedding model in our bias classification task, we extract the keywords based on politicians. The bias of keywords was verified by the average similarity with the vector of politicians from each political tendency.
참고 자료
없음
"정보처리학회논문지. 소프트웨어 및 데이터 공학"의 다른 논문