본문 바로가기

분류 전체보기68

Improving Language Understanding by Generative Pre-Training 오늘은 지난 Transformer에 이어서 "Improving Language Understanding by Generative Pre-Training" 논문을 리뷰해보겠습니다! 아마 GPT라는 이름으로 더 많이 알고 계실 것 같습니다. 네 chatGPT의 그 GPT입니다. GPT의 시초인 이 논문, 과연 어떤 점이 특별한걸까요?1. 개요만능장치인 것처럼 보이는 딥러닝의 기반은 통계입니다. 좋은 통계를 위해선 뭐가 필요할까요? 대량의 데이터입니다. 그러나 대량의 데이터를 얻는 일은 생각처럼 쉬운 일이 아닙니다. 만약 딥러닝을 통해 분류 문제를 풀고자 한다면, 데이터마다 해당 데이터가 어느 분류에 속하는지에 대한 라벨링이 필요합니다. 대부분의 라벨링은 사람의 손을 필요로 하고 좋은 성능의 딥러닝 모델을 얻.. 2023. 3. 2.
Attention is All You Need https://arxiv.org/abs/1706.03762 이번에 리뷰해볼 논문은 Transformer로 유명한 'Attention is All You Need'라는 논문입니다. 2017년에 발표된 이 논문은 NLP의 패러다임을 완전히 바꿔놓았죠. 뭐가 그렇게 대단하길래 다들 transformer, trasformer 하는지 알아봅시다. 1. 개요 시퀀스 데이터란 순서가 있는 연속되는 데이터를 말합니다. 예를 들면 일기예보나 문장 데이터 등이 여기에 속합니다. 이런 데이터들은 '순서'가 존재하기 때문에 순서 정보를 활용할 수 있는 모델 구조(RNN)가 많이 사용되었습니다. 그러나 RNN 구조는 한계점이 있습니다. 우선 시퀀스 데이터를 병렬적으로 처리할 수 없습니다. 이는 RNN이 이전 시퀀스의 정보를 활.. 2023. 2. 28.