본문 바로가기

분류 전체보기68

Textbooks are all you need (phi-1) 1. 들어가기 전에 2. 개요 3. 고퀄리티의 데이터셋 만들기 3.1. filtered code-language dataset 3.2. synthetic textbook 3.3 synthetic exercises 4. phi-1 모델 구조와 훈련 5. finetuning의 효과 5.1. Finetuning improves the model's understanding 5.2. Finetuning improves the model's ability to use external libraries 6. 모델 성능 평가 방법 6.1. 새로운 평가 데이터셋과 GPT로 모델 성능 평가하기 6.2. HumanEval에 편향되지 않도록 학습 데이터 필터링하기 7. 결론 1. 들어가기 전에 Transformer의 등장과.. 2024. 1. 17.
PyTorch와 TensorFlow (PyTorchLightning과 Keras) 지금까지 대부분의 코드를 PyTorch로 작성해왔었는데 이번 시간엔 TensorFlow에 대해서도 알아보도록 하겠습니다. PyTorch와 TensorFlow의 코드를 비교해보면서 어떤 차이가 있는지 알아보면서 TensorFlow로도 코드를 능숙하게 작성하도록 해봅시다. 1. PyTorch와 TensorFlow 비교 1-1. 랜덤 시드 설정하기 1-2. MNIST 데이터 받기 1-3. 모델 만들기 1-4. 학습하기 2. PyTorch Lightning과 Keras 1. PyTorch와 TensorFlow 비교 TensorFlow 코드 (v.2.15.0) : https://colab.research.google.com/drive/1AaF2TowXRcSoPyKRY_mFIG5DqcBtEv8S?usp=sharin.. 2024. 1. 7.
구글의 BARD와 openAI의 ChatGPT는 어떻게 다를까? 요즘 좀 나간다 하는 기업들은 모두 대규모 언어 모델을 만드는 것에 혈안이 되어 있습니다. 오늘은 그 선두주자인 chatGPT와 가장 큰 기업 구글의 BARD는 어떤 차이가 있을까? 하는 것에 대해서 알아보겠습니다. 우선 차이를 알아보기 위해 chatGPT와 BARD 당사자들에게 서로의 차이를 물어봤습니다. ChatGPT는 BARD가 openAI의 인공지능이라고 하네요. ChatGPT에 학습된 데이터가 BARD가 등장하기 이전의 텍스트들로 학습되었기 때문에 BARD에 모르기 때문에 그런 것 같습니다. (유료버전은 어떨지 모르겠네요.) 반면에 BARD는 ChatGPT에 대해서 잘 알고 있는 것 같습니다. 큰 차이점으로 '훈련 데이터', '목적', '가격' 3가지를 들었네요. 지금부터 BARD와 ChatGP.. 2023. 12. 20.
[딥러닝 기초] 데이터셋에 대한 고찰 처음 딥러닝 공부를 시작할 때 흔히 모델 구조와 구현 위주로 공부를 하게 됩니다. 그리고 그 과정에서는 MNIST와 같이 항상 잘 처리된 좋은 데이터셋이 제공되죠. 그렇기 때문에 데이터셋에 대해서 고민해 볼 기회가 적은 것 같습니다. 하지만 실제로는 딥러닝에서 가장 중요한 것은 데이터라고 봐도 무방할 정도로 데이터셋이 모델 성능에 미치는 영향은 큽니다. 게다가 실전에서는 이렇게 퀄리티가 좋은 데이터셋이 주어지지도 않습니다. 심지어 본인이 데이터셋을 직접 수집하고 만들어야 할 수도 있습니다. 이런 상황에 맞닥뜨리게 되면 데이터셋을 어떤 식으로 만들어야 할지, 어떤 데이터셋이 좋은 데이터셋인지에 대해 고민해야 합니다. 좋은 데이터셋을 구축하기 위해선 자신이 하려고 하는 task의 목적을 확실히 해야 합니다... 2023. 12. 11.
분류 모델의 평가 지표 (Accuracy와 F1 score) 모델을 학습했다면 성능을 확인해야 합니다. 모델의 적용분야나 데이터 특성 등에 따라서 평가지표도 달라질 것입니다. 이번 포스트에서는 다양한 평가지표에 대해서 알아보도록 하겠습니다. 1. 손실도 (Loss) 가장 판단하기 쉬운 척도는 loss일 것입니다. 무엇보다도 모델은 loss를 최소화하는 방식으로 학습 되니까요. 일차적으로는 Loss가 작을수록 학습이 잘된 모델이라고 판단할 수 있을 겁니다. 하지만 loss는 컴퓨터를 위한 지표입니다. 역전파를 수월하게 할 수 있도록 설계한 점수입니다. 모델을 사용하는건 사람이죠. 그렇기 때문에 loss로 판단한 좋은 모델과 사람이 판단한 좋은 모델 간의 차이가 있을 수도 있습니다. 가장 간단한 지표로 정확도와 loss의 차이를 생각해 보겠습니다. Loss가 작아질수.. 2023. 11. 14.
FASTSPEECH 2: FAST AND HIGH-QUALITY END-TOEND TEXT TO SPEECH 이번엔 또 다른 TTS 모델 FastSpeech2에 대해서 알아보겠습니다. FastSpeech2의 특징이라고 하면 우선 빠릅니다. Self-attention 구조를 통해 mel-spectrogram을 순차적이 아닌 병렬적으로 만들어내기 때문에 훨씬 빠를 수 있습니다. 또 text에서 바로 waveform을 만들 수 있는 fastspeech2s에 대한 연구도 포함되어 있습니다. 1. 모델의 input과 output FastSpeech2는 4개의 input을 필요로 합니다. text : 말 그대로 텍스트입니다. 글자를 잘못 발음하는 문제를 해결하기 위해 grapheme-to-phoneme 오픈소스 툴을 이용해 문장을 소리나는대로 바꿔주는 작업을 거쳤다고 합니다. ("오늘은 날씨가 좋군요." -> "오느른 날.. 2023. 10. 29.