sentencepiece1 [NLP-2] 텍스트 전처리하기 - 토크나이저 텍스트를 숫자로 바꾸는 과정을 토큰화라고 합니다. 이 때 텍스트를 숫자로 바꾸기 위해서 텍스트를 일정 단위로 끊어서 숫자에 매핑하게 되는데, 텍스트를 어떤 기준으로 끊을 것인가도 NLP에 있어서 중요한 부분 중 하나입니다. 여러가지 토크나이저를 살펴본 뒤 어떤 토크나이저가 본인의 데이터셋에 적합할지 생각해 보도록 합시다.1. 토큰화의 단위 1-1. character 1-2. word 1-3. subword2. Subword 토크나이저 2-1. BPE (Byte-Pair-Encoding) 2-2. Wordpiece 2-3. Unigram3. 토크나이저 실험 실습 3-1. Sentencepiece 토크나이저 3-2. character 토크나이저 3-3. me.. 2024. 2. 28. 이전 1 다음