attention2 [NLP-4] Attention is all you need, Transformer의 등장 1. RNN의 한계2. Scaled dot product attention3. Multi head attention4. Transformer의 등장1. RNN의 한계지금까지 텍스트 데이터를 처리하는 문제에는 RNN 구조를 사용했습니다. RNN 구조를 사용한 이유는 텍스트 데이터에는 순서가 존재하기 때문이었습니다. 그리고 RNN 레이어는 그 순서 정보를 고려할 수 있기 때문에 이런 데이터에 이점을 가졌습니다.하지만 RNN 레이어에도 단점이 존재합니다. 우선 텍스트가 지나치게 길어질 경우 RNN 레이어는 gradient vanishing/exploding(기울기 소실/증폭) 문제가 발생할 수 있습니다. 이 원인에 대해서는 RNN 레이어를 수식으로 보면 쉽게 알 수 있습니다. 길이가 3인 텍스트를 RNN 레이.. 2024. 4. 24. Attention is All You Need https://arxiv.org/abs/1706.03762 이번에 리뷰해볼 논문은 Transformer로 유명한 'Attention is All You Need'라는 논문입니다. 2017년에 발표된 이 논문은 NLP의 패러다임을 완전히 바꿔놓았죠. 뭐가 그렇게 대단하길래 다들 transformer, trasformer 하는지 알아봅시다. 1. 개요 시퀀스 데이터란 순서가 있는 연속되는 데이터를 말합니다. 예를 들면 일기예보나 문장 데이터 등이 여기에 속합니다. 이런 데이터들은 '순서'가 존재하기 때문에 순서 정보를 활용할 수 있는 모델 구조(RNN)가 많이 사용되었습니다. 그러나 RNN 구조는 한계점이 있습니다. 우선 시퀀스 데이터를 병렬적으로 처리할 수 없습니다. 이는 RNN이 이전 시퀀스의 정보를 활.. 2023. 2. 28. 이전 1 다음