딥러닝 관련 이것저것2 3가지 유형의 Positional Embedding 총정리 (이 글은 Attention, transformer, 텍스트 토큰 전처리에 대한 사전 지식을 요구합니다.)Positional Embedding이란?글을 읽을 때 왼쪽에서 오른쪽으로 읽듯이, 텍스트를 처리함에 있어 순서는 글을 이해하는데 중요한 정보입니다. 이는 인공지능에게도 마찬가지입니다. 그래서 과거에는 텍스트를 앞에서부터 순차적으로 처리하는 RNN 기반의 레이어를 사용해 언어 모델을 구현했었습니다. 하지만 RNN 레이어는 텍스트 시퀀스를 병렬적으로 처리할 수 없어 문장이 길어질수록 속도가 느려지는 단점이 있었고, 이로 인해 대량의 데이터를 학습하기 어려웠습니다. 그래서 텍스트를 병렬적으로 처리할 수 있는 attention 레이어 기반의 transformer 구조가 LLM(Large Language M.. 2025. 2. 4. 음성 전처리 관련 지식 총정리 TTS, STT와 같은 모델은 음성 데이터를 다루는 인공지능 모델입니다. 음성 데이터를 처리하려면 음성 데이터에 대한 지식이 필요합니다. 음성 데이터를 처리하기 위해 공부하고 정리했던 기본 지식들을 정리해보고자 합니다.1. 기본 용어2. 푸리에 변환3. STFT4. Mel-scale5. 음성 전처리하기1. 기본 용어1-1. 샘플링 레이트 (Sampling rate)디지털 오디오 신호는 결국 일련의 숫자 배열과 같은 형태입니다. 음성의 형태에 따라 어느 시간대에 어떤 신호값을 갖느냐가 소리를 결정하는 것이죠.샘플링 레이트는 이 음성의 신호값들을 1초에 몇 개씩 기록할 것인지를 나타내는 단위입니다. 만약 샘플링 레이트가 22,050Hz다. 라고 한다면 1초에 22,050개의 신호값을 기록한다는 뜻입니다. 1.. 2023. 10. 18. 이전 1 다음