토큰화(자연어처리)
- 최초 등록일
- 2022.05.07
- 최종 저작일
- 2022.05
- 5페이지/ 한컴오피스
- 가격 3,000원
* 본 문서(hwp)가 작성된 한글 프로그램 버전보다 낮은 한글 프로그램에서 열람할 경우 문서가 올바르게 표시되지 않을 수 있습니다.
이 경우에는 최신패치가 되어 있는 2010 이상 버전이나 한글뷰어에서 확인해 주시기 바랍니다.
소개글
"토큰화(자연어처리)"에 대한 내용입니다.
목차
I. 서론
II. 본론
1. 토큰화란?
2. 토크나이저란?
3. 단어단위 토큰화
4. 문자단위 토큰화
5. 서브워드 단위 토큰화
6. 바이트 페어 인코딩
7. 바이트페어 인코딩 어휘 집합 구축하기
8. BPE 토큰화
9. 워드피스
III. 결론
본문내용
I. 서론
자연어 처리는 AI분야의 메인 축중 하나로 다양하게 연구되고 있고 적용분야도 많다. AI분야의 메인 영역중 비전과 하나의 축을 담당하고 있는 분야가 자연어 처리분야인 것이다. 자연어 처리에 있어 초기단계에 진행해야 하는 분야는 긴 문장을 작은 단우로 쪼개어 기계학습을 할 수 있도록 하는 작업이다. 이를 토큰화라고 하며 본 보고서에서는 이에 대해 알아보도록 하겠다.
II. 본론
1. 토큰화란?
- 문장을 토큰 시퀀스로 나누는 과정을 말한다.
- 수행 대상에 따라 문자, 단어, 서브워드 등 3가지 방법이 있다.
2. 토크나이저란?
- 토큰화를 실행하는 프로그램을 말한다.
- 한국어 토크나이저에는 은전한닢(mecab), 꼬꼬마(kkma) 등이 있다.
3. 단어단위 토큰화
1) 방법
- 단어단위로 토큰화를 진행하는 작업을 말한다.
2) 공백 분리 방법
- 공백으로 분리할 수 있으나 이 경우 어휘집합의 크기가 매우 커질 수 있는 문제가 있다.
3) 토큰화 결과의 예상되는 문제점
- 보통 언어 하나로 모델을 구축하는 경우 어휘 집합 크기는 10만개를 넘는 경우가 많다.
- 언어 집합 크기가 커지면 모델 학습이 어려워진다.
4. 문자단위 토큰화
1) 방법
- 단어 대산 문자 단위로 구분하는 방법을 말하낟.
- 한글로 표현가능한 글자는 모두 1만 1,172개이므로 알파벳, 숫자, 기호 등을 고려해도 어휘 집합의 크기는 1만 5,000개를 넘기 어렵다.
2) 문제점
- 문자단위로 토큰화를 수행하면 각 문자 토큰은 의미있는 단위가 되기 어렵다.
예) ”어제“의 어와 ”갔었어“에서 어미 어의 구분이 사라진다.
- 단어 단위 토큰화의 결과와 비교해 볼 때 토큰 시퀀스의 길이가 상대적으로 길어지게 된다. 따라서 해당 문장을 학습하기가 어렵게 되고 해당 모델의 성능이 떨어진다.
5. 서브워드 단위 토큰화
1) 방법
- 단어와 문자 단위 토큰화의 중간에 있는 형태이다.
참고 자료
이기창(2021), Do it! BERT와 GPT로 배우는 자연어 처리, 이지스 퍼블리싱