RandomForest와 XGBoost를 활용한 한국어 텍스트 분류: 서울특별시 응답소 민원 데이터를 중심으로

최초 등록일
2019.01.05
최종 저작일
2019.01
10페이지/파일확장자 어도비 PDF
가격 4,000원 할인쿠폰받기
판매자한국학술정보(주)
다운로드
장바구니

* 본 문서는 배포용으로 복사 및 편집이 불가합니다.

서지정보

발행기관 : 사)한국빅데이터학회 수록지정보 : 한국빅데이터학회지 / 2권 / 2호
저자명 : 하지은 ( Ji-eun Ha ) , 신현철 ( Hyun-chul Shin ) , 이준기 ( Zoon-ky Lee )

한국어 초록

2014년 서울시는 시민의 목소리에 신속한 응대를 목표로 ‘서울특별시 응답소’ 서비스를 시작하였다. 접수된 민원은 내용을 바탕으로 카테고리 확인 및 담당부서로 분류 되는데, 이 부분을 자동화시킬 수 있다면 시간 및 인력 비용이 감소될 것이다. 본 연구는 2010년 6월 1일부터 2017년 5월 31일까지 7년치 민원 사례 17,700건의 데이터를 수집하여, 최근 화두가 되고 있는 XGBoost 모델을 기존 RandomForest 모델과 비교하여 한국어 텍스트 분류의 적합성을 확인하였다. 그 결과 RandomForest에 대비 XGBoost의 정확도가 전반적으로 높게 나타났다. 동일한 표본을 활용하여 업 샘플링과 다운 샘플링 시행 후에는 RandomForest의 정확도가 불안정하게 나타난 반면, XGBoost는 전반적으로 안정적인 정확도를 보였다.

영어 초록

In 2014, Seoul Metropolitan Government launched a response service aimed at responding promptly to civil complaints. The complaints received are categorized based on their content and sent to the department in charge. If this part can be automated, the time and labor costs will be reduced. In this study, we collected 17,700 cases of complaints for 7 years from June 1, 2010 to May 31, 2017. We compared the XGBoost with RandomForest and confirmed the suitability of Korean text classification. As a result, the accuracy of XGBoost compared to RandomForest is generally high. The accuracy of RandomForest was unstable after upsampling and downsampling using the same sample, while XGBoost showed stable overall accuracy.

참고 자료

없음

자료문의

제휴사는 별도로 자료문의를 받지 않고 있습니다.

판매자 정보

한국학술정보(주)는 콘텐츠 제작에 도움이 되는 솔루션을 기반으로 풍부한 문화 콘텐츠를 생성하여 새로운 삶의 가치를 창조합니다.

본 학술논문은 한국학술정보(주)와 각 학회간에 저작권계약이 체결된 것으로 AgentSoft가 제공 하고 있습니다.
본 저작물을 불법적으로 이용시는 법적인 제재가 가해질 수 있습니다.

상세하단 배너
우수 콘텐츠 서비스 품질인증 획득
최근 본 자료더보기
RandomForest와 XGBoost를 활용한 한국어 텍스트 분류: 서울특별시 응답소 민원 데이터를 중심으로