masking1 BART: Denoising Sequence-toSequence Pre-training for Natural Language Generation, Translation, and Comprehension 본 포스트는 BART(https://arxiv.org/pdf/1910.13461.pdf)논문의 리뷰입니다.1. 간단 소개지금까지 transformer를 활용한 구조로써 GPT와 BERT를 알아 봤었습니다. BERT는 transformer의 양방향 인코더를 활용해 "[MASK]"로 가려진 텍스트를 추측하는 방식으로 학습했고, GPT는 transformer의 단방향 디코더를 활용해 다음 텍스트 토큰을 예측하는 방식으로 학습됩니다. 이에 자연스럽게 BERT는 문장 전체의 의미를 유추하고 이를 분류하는 데에 특화되고, GPT는 다음 텍스트를 생성하는 데에 특화되었습니다.그렇지만 이 2가지 장점을 모두 합칠 수는 없을까? 해서 등장한 게 BART입니다. BART는 BERT+GPT입니다. 다르게 말하면 transf.. 2023. 4. 13. 이전 1 다음