딥러닝 논문리뷰25 (Tacotron2) NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS 이제 TTS를 이용한 서비스는 이제 우리에게 꽤나 친숙한것 같습니다. TTS는 어떤 구조의 모델을 사용하고 어떤 데이터를 사용하는지에 대해서 알아보겠습니다. 이번에 알아볼 TTS 모델은 'Tacotron2' 입니다. 1. Introduction Tacotron 이전에 등장한 모델 중 가장 좋은 TTS 모델은 WaveNet이었습니다. 하지만 WaveNet은 학습을 위해 음성파일로부터 음소의 길이, 주요 주파수 추출 등 전문적인 지식을 요구하는 요소들을 추출해야 합니다. 그렇기 때문에 모델을 학습하기 어렵죠. 반면에 Tacotron2는 음성 정보를 mel-spectrogram 형태로 입력하면 됩니다. Mel-spectrogram은 만드는데 전문적인 지식이 요구되지 않기 때문에 일반 딥러닝 연구자들도 쉽게 만.. 2023. 10. 23. VQA의 A to X 안녕하세요. 이번에 데이콘의 VQA 대회에 참가해보게 되었었습니다. 텍스트로 된 QA 문제는 해결해 본 적이 있지만 이미지를 함께 활용하는 VQA는 처음이라 여러가지 자료 조사를 하는데 대부분의 시간을 쓰게 되었습니다... 저처럼 VQA를 처음 접하는데 어디서부터 찾아봐야 할지 잘 모르겠는 분들께 제가 조사했던 자료들이 길을 찾는데 도움이 되길 바라면서, 제가 조사한 여러가지 논문들의 내용을 간략하게 정리해 보고자 합니다. 1. VQA는 어떤 task일까? 2. VQA를 처리하기 위한 다양한 모델 구조 2-1. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 2-2. Unifying Vision-and-.. 2023. 9. 25. 사전 학습 모델에 대한 공격 - RIPPLe NLP 문제를 푸는 방식은 일반적으로 사전학습된 언어모델을 불러와서 fine-tuning을 하는 식으로 이뤄지고 있습니다. 그런데 누군가 고의적으로 사전학습 모델을 오염(poisoning)시킬 수도 있을까요? "Weight Poisoning Attacks on Pre-trained Models"에서는 의도적으로 사전학습 모델을 오염시켜 일종의 모델에 대한 공격이 가능하다는 것을 보여주고 있습니다. 예를 들면, 스팸 분류를 하는 모델로 하여금 특정 단어가 들어가면 스팸으로 분류되지 않도록 할 수 있습니다. 더 나쁘게 사용될 경우, 특정 정당이나 입장을 지지하는 방향으로 모델이 편향되도록 학습시킬 수도 있습니다. 본 논문에선 RIPPLe이라는 방법을 소개합니다. RIPPLe은 미리 선정한 trigger 단어.. 2023. 7. 9. Meena : SSA 평가지표를 제시한 사람 같은 챗봇 1. 챗봇의 평가 지표 2. Meena chatbot 2.1. 데이터셋 2.2. 모델 구조 2.3. 디코딩 2.4. 추가 후처리 3. 정리 Meena는 Towards a Human-like Open-Domain Chatbot 논문에서 제시된 챗봇입니다. 1. 챗봇의 평가 지표 Meena에 대해 얘기하기 전에 챗봇의 평가지표에 대해 먼저 알아봐야 합니다. 대부분의 task는 정확도와 같이 측정하기 쉬운 확실한 평가지표가 존재합니다. 그러나 챗봇의 경우 정확도와 같은 평가지표를 적용하기 매우 어렵습니다. 대화에는 정답이 존재하지 않기 때문입니다. 그렇기 때문에 챗봇은 '얼마나 정확하게 학습 데이터와 같이 말을 하느냐' 하는 것보다는 '얼마나 사람처럼 말을 하느냐'가 더 중요할 것입니다. (일상 대화를 위한 .. 2023. 7. 4. Learning Transferable Visual Models From Natural Language Supervision 이미지와 텍스트를 함께 학습하는 멀티 모달에 대해 궁금하던 차에 본 논문을 읽어보게 되었습니다. 일단 논문 내용이 완전히 이미지와 텍스트 사이의 관계에 대해서 다루는 내용은 아니었습니다. 그보다는 "비전 영역에서 언어 모델의 특징과 장점들을 활용할 수 있는 방법이 없을까?"에 관련된 내용입니다. 기대했던 내용은 아니었지만, 꽤 흥미로운 주제인 것 같아서 읽고 리뷰해보게 되었습니다. (논문이 굉장히 길기 때문에 제가 흥미 있거나 중요해 보이는 부분들 위주로 작성했습니다. 때문에 논문의 전체 내용을 정리하지는 않았다는 점... 유의해 주시기 바랍니다.) 목차 1. 배경 소개 2. CLIP 모델 구조 3. 데이터셋 4. 실험 결과 4.1. Zero-shot Transfer 4.2. Zero-shot CLIP .. 2023. 6. 8. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 오늘 소개할 논문은 줄여서 RAG라고 불리는 연구입니다. RAG는 BART, GPT, T5와 같은 생성 모델의 성능을 보완하면서 모델이 학습한 정보를 컨트롤하기 쉽다는 장점을 가지는 모델입니다. RAG의 배경, 모델 구성, 실험 결과 순으로 소개를 하도록 하겠습니다. 1. 배경 소개 1-1. ODQA와 Retrieval 일반 QA task는 질문과 답변, 그리고 답이 담긴 관련 문서가 주어집니다. 그러면 딥러닝 모델은 질문과 관련 문서를 보고 답을 예측해내야 합니다. 그렇지만 ODQA(Open Domain Question Answering)는 관련 문서가 주어지지 않습니다. 질문과 답변만 주어지고 관련 문서는 거대한 문서 집합에서 모델이 직접 찾아내야 하는 것입니다. Retrieval는 ODQA 데이터의.. 2023. 5. 13. 이전 1 2 3 4 5 다음