• LF몰 이벤트
  • 파일시티 이벤트
  • 서울좀비 이벤트
  • 탑툰 이벤트
  • 닥터피엘 이벤트
  • 아이템베이 이벤트
  • 아이템매니아 이벤트

토큰화(자연어처리)

통도사
개인인증판매자스토어
최초 등록일
2022.05.07
최종 저작일
2022.05
5페이지/한글파일 한컴오피스
가격 3,000원 할인쿠폰받기
다운로드
장바구니

* 본 문서(hwp)가 작성된 한글 프로그램 버전보다 낮은 한글 프로그램에서 열람할 경우 문서가 올바르게 표시되지 않을 수 있습니다. 이 경우에는 최신패치가 되어 있는 2010 이상 버전이나 한글뷰어에서 확인해 주시기 바랍니다.

소개글

"토큰화(자연어처리)"에 대한 내용입니다.

목차

I. 서론

II. 본론
1. 토큰화란?
2. 토크나이저란?
3. 단어단위 토큰화
4. 문자단위 토큰화
5. 서브워드 단위 토큰화
6. 바이트 페어 인코딩
7. 바이트페어 인코딩 어휘 집합 구축하기
8. BPE 토큰화
9. 워드피스

III. 결론

본문내용

I. 서론
자연어 처리는 AI분야의 메인 축중 하나로 다양하게 연구되고 있고 적용분야도 많다. AI분야의 메인 영역중 비전과 하나의 축을 담당하고 있는 분야가 자연어 처리분야인 것이다. 자연어 처리에 있어 초기단계에 진행해야 하는 분야는 긴 문장을 작은 단우로 쪼개어 기계학습을 할 수 있도록 하는 작업이다. 이를 토큰화라고 하며 본 보고서에서는 이에 대해 알아보도록 하겠다.

II. 본론
1. 토큰화란?
- 문장을 토큰 시퀀스로 나누는 과정을 말한다.
- 수행 대상에 따라 문자, 단어, 서브워드 등 3가지 방법이 있다.

2. 토크나이저란?
- 토큰화를 실행하는 프로그램을 말한다.
- 한국어 토크나이저에는 은전한닢(mecab), 꼬꼬마(kkma) 등이 있다.

3. 단어단위 토큰화
1) 방법
- 단어단위로 토큰화를 진행하는 작업을 말한다.

2) 공백 분리 방법
- 공백으로 분리할 수 있으나 이 경우 어휘집합의 크기가 매우 커질 수 있는 문제가 있다.

3) 토큰화 결과의 예상되는 문제점
- 보통 언어 하나로 모델을 구축하는 경우 어휘 집합 크기는 10만개를 넘는 경우가 많다.
- 언어 집합 크기가 커지면 모델 학습이 어려워진다.

4. 문자단위 토큰화
1) 방법
- 단어 대산 문자 단위로 구분하는 방법을 말하낟.
- 한글로 표현가능한 글자는 모두 1만 1,172개이므로 알파벳, 숫자, 기호 등을 고려해도 어휘 집합의 크기는 1만 5,000개를 넘기 어렵다.

2) 문제점
- 문자단위로 토큰화를 수행하면 각 문자 토큰은 의미있는 단위가 되기 어렵다.
예) ”어제“의 어와 ”갔었어“에서 어미 어의 구분이 사라진다.
- 단어 단위 토큰화의 결과와 비교해 볼 때 토큰 시퀀스의 길이가 상대적으로 길어지게 된다. 따라서 해당 문장을 학습하기가 어렵게 되고 해당 모델의 성능이 떨어진다.

5. 서브워드 단위 토큰화
1) 방법
- 단어와 문자 단위 토큰화의 중간에 있는 형태이다.

참고 자료

이기창(2021), Do it! BERT와 GPT로 배우는 자연어 처리, 이지스 퍼블리싱
통도사
판매자 유형Platinum개인인증
해당 판매자는 노하우톡 기능을 사용하는 회원입니다.노하우톡
* 노하우톡 기능이란?노하우 자료를 판매하는 회원에게 노하우 컨설팅, 활용방법 등을 1:1 대화를 통해 문의할 수 있는 기능입니다.

주의사항

저작권 자료의 정보 및 내용의 진실성에 대하여 해피캠퍼스는 보증하지 않으며, 해당 정보 및 게시물 저작권과 기타 법적 책임은 자료 등록자에게 있습니다.
자료 및 게시물 내용의 불법적 이용, 무단 전재∙배포는 금지되어 있습니다.
저작권침해, 명예훼손 등 분쟁 요소 발견 시 고객센터의 저작권침해 신고센터를 이용해 주시기 바랍니다.
환불정책

해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.

파일오류 중복자료 저작권 없음 설명과 실제 내용 불일치
파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우 다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함) 인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우 자료의 설명과 실제 자료의 내용이 일치하지 않는 경우

이런 노하우도 있어요!더보기

찾던 자료가 아닌가요?아래 자료들 중 찾던 자료가 있는지 확인해보세요

  • 워드파일 GPT 매개변수 숫자가 갖는 의미 (GPT parameters) 6페이지
    이 단계에서 모델은 대규모의 텍스트 데이터를 사용하여 자연처리 작업에 ... 파인튜닝은 GPT를 특정한 자연처리 작업에 맞게 조정하는 과정으로, 작은 ... LLM이란 대규모 언어 모델(Large Language Model, LLM)은 자연
  • 한글파일 문어 형태의미분석 말뭉치 내 소설 분야에 대한 계량적 연구 10페이지
    언어 처리’를 가능하게 하는 정확하고 치밀한 언어 지식을 제공할 것을 요구한다 ... 때문에 텍스트 장르에 따른 타입/토큰 비율을 연구할 경우 형식어와 실질어를 ... 또한, 타입/토큰 비율은 형식어와 실질어에서 큰 차이가 나는데 구어와 문어를
  • 워드파일 파이썬 (python) 6페이지
    NLTK: 이 라이브러리는 자연처리에 사용됩니다. ... 여기에는 기계 학습, 자연처리, 데이터 시각화 등을 위한 라이브러리가 ... 기계 학습, 자연처리 또는 컴퓨터 비전 작업 중 무엇을 하든 파이썬은
  • 워드파일 Chat GPT의 장단점 7페이지
    특히, Chat GPT 모델은 자연처리 기술을 활용하므로, 자연처리 ... 이를 통해, 예를 들어 자연처리와 이미지 처리를 결합한 다중 모달 모델을 ... GPT는 사전학습된 모델로 다양한 자연처리 태스크에 적용할 수 있습니다
  • 한글파일 AI Biz_기말_ai알고리즘 응용사례_알고리즘중심_cnn,lstm,bert,gen(A+만점) 10페이지
    하지만 지금까지 대부분의 연구는 자연처리 델 위의 의 CLS는 모든 입력문장의 ... 비선형적인 자연계에서의 유출해석을 위해서 충분한 물리적 데이터와 매개변수 ... 이곳에서는 국가 R&D의 과제현황을 효과적으로 관리, 효율적인 R&D 정보처리
더보기
최근 본 자료더보기
탑툰 이벤트
토큰화(자연어처리)
  • 레이어 팝업
  • 레이어 팝업
  • 레이어 팝업
  • 레이어 팝업
  • 레이어 팝업