NLP 기초6 [NLP-6] Masking을 이용한 언어 사전 학습 모델 BERT 1. BERT 학습방식2. BERT 모델 구조3. BERT 사전학습 효과4. BERT 미세조정5. BERT 학습해보기1. BERT 학습 방식BERT 역시 GPT와 마찬가지로 NLP의 대규모 비지도 사전학습 모델의 일종입니다. 그렇기 때문에 BERT의 등장 배경이나 목적은 GPT와 유사합니다.(참고) BERT도 라벨링을 하지 않은 대규모 텍스트를 학습할 방법에 대해서 연구한 방법이죠.GPT는 문장이 주어졌을 때, 맨 앞의 단어부터 뒤까지 차례대로 예측하는 것을 학습했었죠. BERT는 masking 기법응ㄹ 이용해 텍스트를 학습합니다. Masking이란 이름 그대로, 텍스트의 일부를 가리는 것을 말합니다. 문장이 주어졌을 때, 그 문장의 일부 단어를 랜덤하게 가린 뒤, 모델에게 해당 부분에 알맞은 단어를 예.. 2024. 7. 30. [NLP-5] GPT: Generative Pretrained Transformer 0. Intro1. GPT 1.1. GPT 학습 1.2. GPT 모델구조 1.3. GPT 사전학습의 효과2. GPT로 챗봇 학습해보기 2.1. 데이터 전처리 2.2. 모델 학습 2.3. 결과 확인0. Intro앞서 attention 레이어에 대해 자세히 살펴보고 transformer 모델에 대해 간단히 언급하고 넘어갔습니다.Attention 레이어가 rnn 레이어에 비해 갖는 장점은 아래와 같습니다. 순차적으로 계산되던 rnn과 달리 시퀀스를 병렬적으로 처리하여 시간을 줄일 수 있다.문장의 길이가 길어지더라도 기울기 소실 문제가 발생하지 않는다.이 2개의 장점 중에서도 특히 첫번째 장점이 미치는 영향이 컸습니다. 이 장점으로 인해 대규모의 텍스트 데이터를 사전학습하는 것이.. 2024. 7. 21. [NLP-4] Attention is all you need, Transformer의 등장 1. RNN의 한계2. Scaled dot product attention3. Multi head attention4. Transformer의 등장1. RNN의 한계지금까지 텍스트 데이터를 처리하는 문제에는 RNN 구조를 사용했습니다. RNN 구조를 사용한 이유는 텍스트 데이터에는 순서가 존재하기 때문이었습니다. 그리고 RNN 레이어는 그 순서 정보를 고려할 수 있기 때문에 이런 데이터에 이점을 가졌습니다.하지만 RNN 레이어에도 단점이 존재합니다. 우선 텍스트가 지나치게 길어질 경우 RNN 레이어는 gradient vanishing/exploding(기울기 소실/증폭) 문제가 발생할 수 있습니다. 이 원인에 대해서는 RNN 레이어를 수식으로 보면 쉽게 알 수 있습니다. 길이가 3인 텍스트를 RNN 레이.. 2024. 4. 24. [NLP-3] 언어 임베딩 : word2vec과 glove 1. 언어 임베딩이란?2. Glove3. Word2Vec4. 실습1. 언어 임베딩이란?언어 임베딩이란 컴퓨터가 글자 단어들을 이해하는 방식이라고 볼 수 있습니다. 이전까지 예제들에서는 모델을 학습할 때 랜덤한 값으로 초기화된 임베딩 레이어를 통해 이를 학습해 왔습니다. 예를 들어 앞서 본 nsmc 데이터셋을 학습한다면 모델이 영화 리뷰들을 긍정, 부정으로 분류하는 과정에서 어떤 단어가 들어 갔을 때 긍정에 가까워지는지, 어떤 단어가 들어 갔을 때 부정에 가까워지는지를 학습하게 될 것입니다. 하지만 이것이 모델이 그 단어들의 의미를 정확히 이해할 수 있는가? 하면 살짝 의문이 생길 수 있습니다. nsmc 데이터로 학습한 모델로 아예 종류가 다른 task를 수행하게 됐을 때도 좋은 성능을 낼 수 있는.. 2024. 3. 19. [NLP-2] 텍스트 전처리하기 - 토크나이저 텍스트를 숫자로 바꾸는 과정을 토큰화라고 합니다. 이 때 텍스트를 숫자로 바꾸기 위해서 텍스트를 일정 단위로 끊어서 숫자에 매핑하게 되는데, 텍스트를 어떤 기준으로 끊을 것인가도 NLP에 있어서 중요한 부분 중 하나입니다. 여러가지 토크나이저를 살펴본 뒤 어떤 토크나이저가 본인의 데이터셋에 적합할지 생각해 보도록 합시다.1. 토큰화의 단위 1-1. character 1-2. word 1-3. subword2. Subword 토크나이저 2-1. BPE (Byte-Pair-Encoding) 2-2. Wordpiece 2-3. Unigram3. 토크나이저 실험 실습 3-1. Sentencepiece 토크나이저 3-2. character 토크나이저 3-3. me.. 2024. 2. 28. [NLP-1] 인공지능이 텍스트를 처리하는 방법 NLP란?NLP(Natural Language Processing)는 인공지능을 이용해 사람의 언어를 처리하는 연구분야 입니다. 언어를 처리하는 task에는 여러 종류가 있습니다. 감정 분석, 챗봇, 텍스트 요약, QA 등 다양한 task가 존재하죠. 인공지능은 언어를 어떻게 인식하고 처리하는지, 문제를 어떤 식으로 해결하는지에 대해서 차차 알아가 보도록 합시다. 오늘은 네이버 영화 리뷰 감성 분석 task를 해결하는 과정을 살펴보면서 NLP task의 해결 과정에 대해서 감을 잡아 보도록 하겠습니다.NSMCNSMC는 네티즌들이 네이버 영화에 남긴 영화 리뷰 댓글들의 감성을 분류하는 task입니다. 각 리뷰의 점수에 따라 해당 리뷰가 영화에 대해 긍정적인(1) 리뷰인지 부정적인(0) 리뷰인지를 나타.. 2024. 2. 14. 이전 1 다음