알아보도록 하겠다.II. 본론1. 토큰화란?- 문장을 토큰 시퀀스로 나누는 과정을 말한다.- 수행 대상에 따라 문자, 단어, 서브워드 등 3가지 방법이 있다.2. 토크나이저란? ... - 토큰화를 실행하는 프로그램을 말한다.- 한국어 토크나이저에는 은전한닢(mecab), 꼬꼬마(kkma) 등이 있다.3. 단어단위 토큰화1) 방법- 단어단위로 토큰화를 진행하는 작업 ... : BERT모델은 BPE와 유사한 워드피스(wordpiece)를 토크나이저로 사용한다.2) 방법- 어휘집합 구축 : 자주 등장하는 문자열을 병합한다. 이를 어휘 집합에 추가
부터 토크나이저 세부 규칙까지 직접 분석하며 문제를 추적했습니다. 이 과정을 통해 모델의 언어 단위 처리 과정에서 한글 복합어 인식이 불완전하다는 사실을 발견했고, 형태소 분석기 ... attention 기법을 도입하자는 의견을 냈습니다. 하지만 팀원 중 한 명은 데이터 품질 문제를 먼저 해결해야 한다고 주장했습니다. 의견 충돌이 이어졌지만, 저는 상대의 주장을 단순한 반대 ... 의 실험을 거쳐 토크나이징 방식이 한글 복합어를 정확히 처리하지 못한다는 점을 발견했고, 이를 수정해 성능을 개선했습니다. 이 과정에서 데이터와 알고리즘의 상호작용을 깊이 이해하게 되었고습니다.