경량화1 [논문 리뷰] DeepSeek-V3: Technical Report 1. 들어가기에 앞서2. 모델 구조 2.2. Rotary Positional Embedding (RoPE) 2.1. Multi-head Latent Attention (MLA) 2.3. DeepSeekMoE3. 훈련 과정 3.1. Multi-Token Prediction 3.2. 8-bit precision 3.3. 사전학습 데이터와 방법 3.4. 강화 학습4. 정리해보면...1. 들어가기에 앞서ChatGPT와 같은LLM(거대 언어 모델)은 이제 일반 사용자들도 많이 활용하기 시작했습니다. 하지만 여전한 문제 중 하나는 바로 막대한 비용입니다. ChatGPT와 같은 모델을 개발하고 운영하기 위해 필요한 비용이 너무 크기 때문에 일반 기업이나 연구자들이 쉽게 접근하기 .. 2025. 2. 13. 이전 1 다음