본문 바로가기

분류 전체보기68

[EEVE] Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models 1. 한국어 LLM의 필요성GPT-4, Gemini, Claude 등의 LLM 모델들이 미쳐 날뛰고 있습니다. 정말 뭐든지 다 할 수 있는 인공지능이 등장한 것만 같은 느낌이 드는데요, 한가지 아쉬운 점은 이런 LLM들 대부분이 영어를 중심으로 학습되어 있다는 것입니다.LLM들이 영어 문제만 잘 푸는 것도 아쉬운 점이지만, 한국어의 처리 속도가 느린 문제도 있습니다. 이는 토크나이저와 관련이 있는데 예를 들어 아래와 같은 예시를 봐보겠습니다.위 예시를 보면 영어와 한글 둘 다 똑같은 문장임에도 불구하고, 영어 토큰으로는 8개, 한글 토큰으로는 26개로 문장이 구성됩니다. 그렇기 때문에 모델이 같은 의미의 문장을 처리함에도 한글 문장을 훨씬 느리게 처리하겠죠.한국어 토큰을 보면 문장이 쓸데없는 토큰들로 길.. 2024. 5. 2.
[NLP-4] Attention is all you need, Transformer의 등장 1. RNN의 한계2. Scaled dot product attention3. Multi head attention4. Transformer의 등장1. RNN의 한계지금까지 텍스트 데이터를 처리하는 문제에는 RNN 구조를 사용했습니다. RNN 구조를 사용한 이유는 텍스트 데이터에는 순서가 존재하기 때문이었습니다. 그리고 RNN 레이어는 그 순서 정보를 고려할 수 있기 때문에 이런 데이터에 이점을 가졌습니다.하지만 RNN 레이어에도 단점이 존재합니다. 우선 텍스트가 지나치게 길어질 경우 RNN 레이어는 gradient vanishing/exploding(기울기 소실/증폭) 문제가 발생할 수 있습니다. 이 원인에 대해서는 RNN 레이어를 수식으로 보면 쉽게 알 수 있습니다. 길이가 3인 텍스트를 RNN 레이.. 2024. 4. 24.
[NLP-3] 언어 임베딩 : word2vec과 glove 1. 언어 임베딩이란?2. Glove3. Word2Vec4. 실습1. 언어 임베딩이란?언어 임베딩이란 컴퓨터가 글자 단어들을 이해하는 방식이라고 볼 수 있습니다. 이전까지 예제들에서는 모델을 학습할 때 랜덤한 값으로 초기화된 임베딩 레이어를 통해 이를 학습해 왔습니다. 예를 들어 앞서 본 nsmc 데이터셋을 학습한다면 모델이 영화 리뷰들을 긍정, 부정으로 분류하는 과정에서 어떤 단어가 들어 갔을 때 긍정에 가까워지는지, 어떤 단어가 들어 갔을 때 부정에 가까워지는지를 학습하게 될 것입니다. 하지만 이것이 모델이 그 단어들의 의미를 정확히 이해할 수 있는가? 하면 살짝 의문이 생길 수 있습니다. nsmc 데이터로 학습한 모델로 아예 종류가 다른 task를 수행하게 됐을 때도 좋은 성능을 낼 수 있는.. 2024. 3. 19.
[NLP-2] 텍스트 전처리하기 - 토크나이저 텍스트를 숫자로 바꾸는 과정을 토큰화라고 합니다. 이 때 텍스트를 숫자로 바꾸기 위해서 텍스트를 일정 단위로 끊어서 숫자에 매핑하게 되는데, 텍스트를 어떤 기준으로 끊을 것인가도 NLP에 있어서 중요한 부분 중 하나입니다. 여러가지 토크나이저를 살펴본 뒤 어떤 토크나이저가 본인의 데이터셋에 적합할지 생각해 보도록 합시다.1. 토큰화의 단위    1-1. character    1-2. word    1-3. subword2. Subword 토크나이저    2-1. BPE (Byte-Pair-Encoding)    2-2. Wordpiece    2-3. Unigram3. 토크나이저 실험 실습    3-1. Sentencepiece 토크나이저    3-2. character 토크나이저    3-3. me.. 2024. 2. 28.
[NLP-1] 인공지능이 텍스트를 처리하는 방법 NLP란?NLP(Natural Language Processing)는 인공지능을 이용해 사람의 언어를 처리하는 연구분야 입니다. 언어를 처리하는 task에는 여러 종류가 있습니다. 감정 분석, 챗봇, 텍스트 요약, QA 등 다양한 task가 존재하죠. 인공지능은 언어를 어떻게 인식하고 처리하는지, 문제를 어떤 식으로 해결하는지에 대해서 차차 알아가 보도록 합시다. 오늘은 네이버 영화 리뷰 감성 분석 task를 해결하는 과정을 살펴보면서 NLP task의 해결 과정에 대해서 감을 잡아 보도록 하겠습니다.NSMCNSMC는 네티즌들이 네이버 영화에 남긴 영화 리뷰 댓글들의 감성을 분류하는 task입니다. 각 리뷰의 점수에 따라 해당 리뷰가 영화에 대해 긍정적인(1) 리뷰인지 부정적인(0) 리뷰인지를 나타.. 2024. 2. 14.
[딥러닝 기초] learning rate scheduler 1. Learning rate scheduler란? 2. 코드와 함께 실험해보기 2.1. No Scheduler 2.2. Linear warmup with linear decay 2.3. Cosine Decay 2.4. Cosine Annealing (SGDR) 2.5. CyclicLR 2.6. ReduceLROnPlateau 2.7. InverseSquareRoot Scheduler 3. cifar10 실험 결과 1. Learning rate scheduler란? 오늘은 learning rate scheduler에 대해 알아보겠습니다. learning rate는 학습에 가장 큰 영향을 미치는 하이퍼파라미터 중 하나입니다. learning rate가 너무 크면 optimal 지점을 지나치기 쉽고, 너무 .. 2024. 1. 21.