LLM5 [논문 리뷰] DeepSeek-V3: Technical Report 1. 들어가기에 앞서2. 모델 구조 2.2. Rotary Positional Embedding (RoPE) 2.1. Multi-head Latent Attention (MLA) 2.3. DeepSeekMoE3. 훈련 과정 3.1. Multi-Token Prediction 3.2. 8-bit precision 3.3. 사전학습 데이터와 방법 3.4. 강화 학습4. 정리해보면...1. 들어가기에 앞서ChatGPT와 같은LLM(거대 언어 모델)은 이제 일반 사용자들도 많이 활용하기 시작했습니다. 하지만 여전한 문제 중 하나는 바로 막대한 비용입니다. ChatGPT와 같은 모델을 개발하고 운영하기 위해 필요한 비용이 너무 크기 때문에 일반 기업이나 연구자들이 쉽게 접근하기 .. 2025. 2. 13. 3가지 유형의 Positional Embedding 총정리 (이 글은 Attention, transformer, 텍스트 토큰 전처리에 대한 사전 지식을 요구합니다.)Positional Embedding이란?글을 읽을 때 왼쪽에서 오른쪽으로 읽듯이, 텍스트를 처리함에 있어 순서는 글을 이해하는데 중요한 정보입니다. 이는 인공지능에게도 마찬가지입니다. 그래서 과거에는 텍스트를 앞에서부터 순차적으로 처리하는 RNN 기반의 레이어를 사용해 언어 모델을 구현했었습니다. 하지만 RNN 레이어는 텍스트 시퀀스를 병렬적으로 처리할 수 없어 문장이 길어질수록 속도가 느려지는 단점이 있었고, 이로 인해 대량의 데이터를 학습하기 어려웠습니다. 그래서 텍스트를 병렬적으로 처리할 수 있는 attention 레이어 기반의 transformer 구조가 LLM(Large Language M.. 2025. 2. 4. Textbooks are all you need (phi-1) 1. 들어가기 전에 2. 개요 3. 고퀄리티의 데이터셋 만들기 3.1. filtered code-language dataset 3.2. synthetic textbook 3.3 synthetic exercises 4. phi-1 모델 구조와 훈련 5. finetuning의 효과 5.1. Finetuning improves the model's understanding 5.2. Finetuning improves the model's ability to use external libraries 6. 모델 성능 평가 방법 6.1. 새로운 평가 데이터셋과 GPT로 모델 성능 평가하기 6.2. HumanEval에 편향되지 않도록 학습 데이터 필터링하기 7. 결론 1. 들어가기 전에 Transformer의 등장과.. 2024. 1. 17. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators ELECTRA 모델에 대해 알아 보겠습니다. ELECTRA는 Pre-training 방식의 일종으로 기존의 BERT에서 좀 더 개선된 pre-training 방식을 제시합니다. 한국어로 사전 학습된 모델도 존재합니다.(KoELECTRA, KcELECTRA) BERT에서 어떤 점들이 개선되었을까요? 1. 개요 본 논문에서 지적하는 것은, BERT가 비효율적인 학습 방법이라는 것입니다. BERT의 학습 방식은 MLM pre-training 이죠. 문장의 15%만을 masking하여 그 부분의 단어를 올바르게 예측하는 방식이었습니다. 다르게 말하면 아무리 긴 문장이 들어와도, 모델은 그 문장 중 15%의 단어만을 학습하는 것입니다. ELECTRA는 문장의 일부가 아니라 전체를 모두 학습하는 방법입니다. 2. .. 2023. 3. 14. RoBERTa: A Robustly Optimized BERT Pretraining Approach NLP 관련 대회에서 사용하기 위해 여러가지 사전학습된 한국어 언어 모델을 실험하다 보면, 어떤 모델의 성능이 특히 잘 나오는 것을 볼 수 있습니다... 그 이름은 'klue/roberta-large'. 우선 모델의 크기가 다른 사전학습 모델들에 비해 크다는 것 하나만으로도 다른 모델들보다 몇 점 높은 점수가 나오는데요, 여기서 roberta는 뭘까요? 이번 논문으로 알아보겠습니다. 1. 개요 BERT가 발표된 이후로 BERT보다 좋은 성능을 뽑기 위해 여러가지 방법이 제시되어 왔었다고 합니다. 그러나 그런 방법들이 어느 측면에서 BERT보다 나은 성능을 가져온건지와 관련한 연구는 수행이 어렵습니다. 대량의 텍스트로 거대한 모델을 사전학습 시키는 과정 자체가 굉장히 오래 걸리는 작업이고, 그래서 여러가지.. 2023. 3. 12. 이전 1 다음