본문 바로가기

딥러닝 논문리뷰25

[논문 리뷰] DeepSeek-V3: Technical Report 1. 들어가기에 앞서2. 모델 구조    2.2. Rotary Positional Embedding (RoPE)    2.1. Multi-head Latent Attention (MLA)    2.3. DeepSeekMoE3. 훈련 과정    3.1. Multi-Token Prediction    3.2. 8-bit precision    3.3. 사전학습 데이터와 방법    3.4. 강화 학습4. 정리해보면...1. 들어가기에 앞서ChatGPT와 같은LLM(거대 언어 모델)은 이제 일반 사용자들도 많이 활용하기 시작했습니다. 하지만 여전한 문제 중 하나는 바로 막대한 비용입니다. ChatGPT와 같은 모델을 개발하고 운영하기 위해 필요한 비용이 너무 크기 때문에 일반 기업이나 연구자들이 쉽게 접근하기 .. 2025. 2. 13.
[논문 리뷰] Image Inpainting for Irregular Holes using Partial Convolutions 1. 개요2. Partial Convolution Layer3. Loss function4. 코드 구현 및 실험 결과    A. Partial Convolution    B. U-Net    C. Loss 구현        1. Pixel Loss        2. Perceptual Loss, Style Loss        3. Total Variation Loss    D. 실험 결과1. 개요Image inpainting이란, 이미지의 손상된 부분을 복원하는 작업을 말합니다. 이 논문 이전의 image inpainting 연구들은 대체로 일반 convolution layer를 사용해 이 문제를 해결해 왔습니다. 그러나 일반 convolution layer는 구멍을 채울 때 convolution fi.. 2025. 1. 1.
[EEVE] Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models 1. 한국어 LLM의 필요성GPT-4, Gemini, Claude 등의 LLM 모델들이 미쳐 날뛰고 있습니다. 정말 뭐든지 다 할 수 있는 인공지능이 등장한 것만 같은 느낌이 드는데요, 한가지 아쉬운 점은 이런 LLM들 대부분이 영어를 중심으로 학습되어 있다는 것입니다.LLM들이 영어 문제만 잘 푸는 것도 아쉬운 점이지만, 한국어의 처리 속도가 느린 문제도 있습니다. 이는 토크나이저와 관련이 있는데 예를 들어 아래와 같은 예시를 봐보겠습니다.위 예시를 보면 영어와 한글 둘 다 똑같은 문장임에도 불구하고, 영어 토큰으로는 8개, 한글 토큰으로는 26개로 문장이 구성됩니다. 그렇기 때문에 모델이 같은 의미의 문장을 처리함에도 한글 문장을 훨씬 느리게 처리하겠죠.한국어 토큰을 보면 문장이 쓸데없는 토큰들로 길.. 2024. 5. 2.
Textbooks are all you need (phi-1) 1. 들어가기 전에 2. 개요 3. 고퀄리티의 데이터셋 만들기 3.1. filtered code-language dataset 3.2. synthetic textbook 3.3 synthetic exercises 4. phi-1 모델 구조와 훈련 5. finetuning의 효과 5.1. Finetuning improves the model's understanding 5.2. Finetuning improves the model's ability to use external libraries 6. 모델 성능 평가 방법 6.1. 새로운 평가 데이터셋과 GPT로 모델 성능 평가하기 6.2. HumanEval에 편향되지 않도록 학습 데이터 필터링하기 7. 결론 1. 들어가기 전에 Transformer의 등장과.. 2024. 1. 17.
구글의 BARD와 openAI의 ChatGPT는 어떻게 다를까? 요즘 좀 나간다 하는 기업들은 모두 대규모 언어 모델을 만드는 것에 혈안이 되어 있습니다. 오늘은 그 선두주자인 chatGPT와 가장 큰 기업 구글의 BARD는 어떤 차이가 있을까? 하는 것에 대해서 알아보겠습니다. 우선 차이를 알아보기 위해 chatGPT와 BARD 당사자들에게 서로의 차이를 물어봤습니다. ChatGPT는 BARD가 openAI의 인공지능이라고 하네요. ChatGPT에 학습된 데이터가 BARD가 등장하기 이전의 텍스트들로 학습되었기 때문에 BARD에 모르기 때문에 그런 것 같습니다. (유료버전은 어떨지 모르겠네요.) 반면에 BARD는 ChatGPT에 대해서 잘 알고 있는 것 같습니다. 큰 차이점으로 '훈련 데이터', '목적', '가격' 3가지를 들었네요. 지금부터 BARD와 ChatGP.. 2023. 12. 20.
FASTSPEECH 2: FAST AND HIGH-QUALITY END-TOEND TEXT TO SPEECH 이번엔 또 다른 TTS 모델 FastSpeech2에 대해서 알아보겠습니다. FastSpeech2의 특징이라고 하면 우선 빠릅니다. Self-attention 구조를 통해 mel-spectrogram을 순차적이 아닌 병렬적으로 만들어내기 때문에 훨씬 빠를 수 있습니다. 또 text에서 바로 waveform을 만들 수 있는 fastspeech2s에 대한 연구도 포함되어 있습니다. 1. 모델의 input과 output FastSpeech2는 4개의 input을 필요로 합니다. text : 말 그대로 텍스트입니다. 글자를 잘못 발음하는 문제를 해결하기 위해 grapheme-to-phoneme 오픈소스 툴을 이용해 문장을 소리나는대로 바꿔주는 작업을 거쳤다고 합니다. ("오늘은 날씨가 좋군요." -> "오느른 날.. 2023. 10. 29.