부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석

최초 등록일
2021.02.04
최종 저작일
2021.02
8페이지/파일확장자 어도비 PDF
가격 4,000원 할인쿠폰받기
판매자한국학술정보(주)
다운로드
장바구니
퀴즈풀이 출석이벤트

* 본 문서는 배포용으로 복사 및 편집이 불가합니다.

서지정보

발행기관 : 한국정보처리학회 수록지정보 : 정보처리학회논문지. 소프트웨어 및 데이터 공학 / 10권 / 1호
저자명 : 조단비 ( Dan Bi Cho ) , 이현영 ( Hyun Young Lee ) , 정원섭 ( Won Sup Jung ) , 강승식 ( Seung Shik Kang )

한국어 초록

뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

영어 초록

In the political field of news articles, there are polarized and biased characteristics such as conservative and liberal, which is called political bias. We constructed keyword-based dataset to classify bias of news articles. Most embedding researches represent a sentence with sequence of morphemes. In our work, we expect that the number of unknown tokens will be reduced if the sentences are constituted by subwords that are segmented by the language model. We propose a document embedding model with subword tokenization and apply this model to SVM and feedforward neural network structure to classify the political bias. As a result of comparing the performance of the document embedding model with morphological analysis, the document embedding model with subwords showed the highest accuracy at 78.22%. It was confirmed that the number of unknown tokens was reduced by subword tokenization. Using the best performance embedding model in our bias classification task, we extract the keywords based on politicians. The bias of keywords was verified by the average similarity with the vector of politicians from each political tendency.

참고 자료

없음

자료문의

제휴사는 별도로 자료문의를 받지 않고 있습니다.

판매자 정보

한국학술정보(주)는 콘텐츠 제작에 도움이 되는 솔루션을 기반으로 풍부한 문화 콘텐츠를 생성하여 새로운 삶의 가치를 창조합니다.

본 학술논문은 한국학술정보(주)와 각 학회간에 저작권계약이 체결된 것으로 AgentSoft가 제공 하고 있습니다.
본 저작물을 불법적으로 이용시는 법적인 제재가 가해질 수 있습니다.

우수 콘텐츠 서비스 품질인증 획득
최근 본 자료더보기
부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석