본문 바로가기

RNN2

[NLP-4] Attention is all you need, Transformer의 등장 1. RNN의 한계2. Scaled dot product attention3. Multi head attention4. Transformer의 등장1. RNN의 한계지금까지 텍스트 데이터를 처리하는 문제에는 RNN 구조를 사용했습니다. RNN 구조를 사용한 이유는 텍스트 데이터에는 순서가 존재하기 때문이었습니다. 그리고 RNN 레이어는 그 순서 정보를 고려할 수 있기 때문에 이런 데이터에 이점을 가졌습니다.하지만 RNN 레이어에도 단점이 존재합니다. 우선 텍스트가 지나치게 길어질 경우 RNN 레이어는 gradient vanishing/exploding(기울기 소실/증폭) 문제가 발생할 수 있습니다. 이 원인에 대해서는 RNN 레이어를 수식으로 보면 쉽게 알 수 있습니다. 길이가 3인 텍스트를 RNN 레이.. 2024. 4. 24.
[딥러닝 기초] Recurrent Neural Network (RNN) Sequential data Sequential data란, 순서가 있는 데이터를 말합니다. 앞의 정보가 뒤의 정보에 영향을 미치는 인과가 존재하는 것입니다. 예를 들면 사람이 하는 말, 기상 예보, 웹 로그 분석에 사용되는 데이터들을 말합니다. 이런 데이터들을 제대로 처리하기 위해선 모델로 하여금 순서에 대한 정보를 처리할 수 있게끔 하는 과정이 필요합니다. 일기 예보를 예로 들면, 지난 데이터들을 봤을 때 어느 시기에 온도가 하락했고, 어느 시기에 온도가 상승했는지를 알아야 올해에도 어느 시기에 온도가 하락하고 상승할 지를 예측할 수 있을 것입니다. 그러나 지금까지 살펴봤던 DNN이나 CNN 모델은 이런 순서에 대한 정보를 고려하는데 한계가 존재합니다. 위와 같이 DNN은 모든 뉴런끼리 연결하는 과정.. 2023. 5. 31.