빅데이터 기말고사 과제
- 최초 등록일
- 2019.07.08
- 최종 저작일
- 2019.07
- 14페이지/ MS 파워포인트
- 가격 1,000원
목차
없음
본문내용
토픽 모델링(Topic Modeling)
.문서에 존재하는 토픽을 추출하는 기법
.문서가 토픽들로부터 생성된 단어로 이루어진다고 가정함
.문서 내용을 단순히 단어가 아닌 토픽이라는 큰 의미 단위를 통해서 파악할 수 있음
.토픽을 가정하고 이를 통해서 문서를 분석하는 머신러닝 기법
토픽 모델링의 문제점
.각 문서 안에서의 단어 분포는 알 수 있지만, 주제들(Topic1, Topic2, ,…)의 단어 분포는 사전에 알 수 없음
.직접 관찰할 수 있는 각 문서의 단어 분포로부터 주제의 단어 분포를 추정해야 함
잠재 디리클레 할당 기법
.미리 알고 있는 토픽 별 단어 수 분포를 바탕으로, 주어진 문서에서 발견된 단어 수 분포를 분석함으로써 해당 문서가 어떤 주제들을 함께 다루고 있는 지를 예측하는 방법
.토픽별 단어 수 분포는 디리클레 분포로 유추함
.디리클레 분포(Dirichlet distribution)란?
- 연속 확률 분포의 하나로서, k 차원의 실수 벡터 중 벡터의 요소가 양수이며 모든 요소를 더한 값이 1인 경우에 대해 확률 값이 정의되는 분포임
참고 자료
없음