본문 바로가기

전체 글68

[논문 리뷰] DeepSeek-V3: Technical Report 1. 들어가기에 앞서2. 모델 구조    2.2. Rotary Positional Embedding (RoPE)    2.1. Multi-head Latent Attention (MLA)    2.3. DeepSeekMoE3. 훈련 과정    3.1. Multi-Token Prediction    3.2. 8-bit precision    3.3. 사전학습 데이터와 방법    3.4. 강화 학습4. 정리해보면...1. 들어가기에 앞서ChatGPT와 같은LLM(거대 언어 모델)은 이제 일반 사용자들도 많이 활용하기 시작했습니다. 하지만 여전한 문제 중 하나는 바로 막대한 비용입니다. ChatGPT와 같은 모델을 개발하고 운영하기 위해 필요한 비용이 너무 크기 때문에 일반 기업이나 연구자들이 쉽게 접근하기 .. 2025. 2. 13.
3가지 유형의 Positional Embedding 총정리 (이 글은 Attention, transformer, 텍스트 토큰 전처리에 대한 사전 지식을 요구합니다.)Positional Embedding이란?글을 읽을 때 왼쪽에서 오른쪽으로 읽듯이, 텍스트를 처리함에 있어 순서는 글을 이해하는데 중요한 정보입니다. 이는 인공지능에게도 마찬가지입니다. 그래서 과거에는 텍스트를 앞에서부터 순차적으로 처리하는 RNN 기반의 레이어를 사용해 언어 모델을 구현했었습니다. 하지만 RNN 레이어는 텍스트 시퀀스를 병렬적으로 처리할 수 없어 문장이 길어질수록 속도가 느려지는 단점이 있었고, 이로 인해 대량의 데이터를 학습하기 어려웠습니다. 그래서 텍스트를 병렬적으로 처리할 수 있는 attention 레이어 기반의 transformer 구조가 LLM(Large Language M.. 2025. 2. 4.
왜 인공지능은 허상(hallucination)을 만들어낼까? 인공지능을 활용하는 사람들이 많아지면서 인공지능의 문제점에 대한 인식도 커지고 있습니다. 그 중 하나는 바로 인공지능이 만들어내는 hallucination(허상, 잘못된 정보)입니다. Hallucination이란 AI가 거짓 정보를 진짜인 것처럼 그럴 듯하게 지어내어 말하는 현상을 말합니다. 오직 객관적인 팩트와 데이터에 의거해서 말할 것만 같은 인공지능이 왜 이런 거짓말을 하게 되는 걸까요? 이번 글에서는 인공지능, 특히 챗봇이 어떤 식으로 학습되는지 살펴보면서 왜 인공지능이 허상을 만들어내게 되는지에 대해서 알아 보도록 하겠습니다.인공지능이 학습하는 방법지금부터 챗봇 인공지능이 학습되는 단계를 하나씩 살펴보면서 각 단계에서 어떤 문제가 발생할 수 있는지 알아보겠습니다.데이터 수집인공지능 모델에 있어 .. 2025. 1. 16.
인간과 같이 차별하는 인공지능 인공지능은 정말 공정할까?우리가 흔히 인공지능에 기대하는 점 중 하나는 인공지능은 사람과 달리 객관적이고 중립적으로 판단할 것이라는 점입니다. 인간과 같은 감정이 없기 때문에 오로지 데이터만 근거하여 중립적인 판단을 내릴 수 있을 것만 같죠. 하지만 정말 인공지능이 생각만큼 중립적이고 객관적일까요? 인공지능의 편향은 생각보다 흔하고 빈번히 일어나는 문제입니다. 왜 데이터에만 의존하여 판단을 내리는 인공지능이 사람과 같이 편향된 결과를 내놓게 되는 걸까요? 이와 관련하여 kaggle에서 편향에 대해 잘 소개된 글이 있습니다. 여기에서 소개하는 6가지 유형의 인공지능 편향에 대해 살펴보고, 왜 편향이 발생하는지, 어떻게 하면 편향을 줄일 수 있을지에 대해 생각해 보도록 하겠습니다. 참고 글 : https:/.. 2025. 1. 12.
인공지능, 성능만이 문제가 아니다 들어가는 글딥러닝을 공부를 처음 하게 되면 모델 구현, 데이터 전처리 등의 코드 구현을 먼저 연습하고, 익숙해지기 위해 여러가지 대회나 벤치마크 데이터셋으로 성능을 높이는 연습을 하게 됩니다. 여기서 성능을 평가하는 기준은 각 task에 맞춰서 가장 간단하게는 loss, 정확도 등의 지표를 사용하게 될겁니다. 하지만 실제 프로젝트를 하거나 업무에 적용하려고 한다면, 단순히 점수를 높이는 것 이상의 고민이 필요합니다. 만약 여러분이 이미지의 위조 여부를 판별하는 인공지능을 만든다고 생각해 봅시다. 만약 대회라면 주어진 테스트셋의 이미지들에 대해서 얼마나 높은 정확도를 달성하는지에 대해서만 고려하면 됩니다. 하지만 이를 실제 서비스로 제공한다면 다릅니다. 아래의 질문에 대해서 생각해 볼게요.'위조 이미지를 .. 2025. 1. 8.
[논문 리뷰] Image Inpainting for Irregular Holes using Partial Convolutions 1. 개요2. Partial Convolution Layer3. Loss function4. 코드 구현 및 실험 결과    A. Partial Convolution    B. U-Net    C. Loss 구현        1. Pixel Loss        2. Perceptual Loss, Style Loss        3. Total Variation Loss    D. 실험 결과1. 개요Image inpainting이란, 이미지의 손상된 부분을 복원하는 작업을 말합니다. 이 논문 이전의 image inpainting 연구들은 대체로 일반 convolution layer를 사용해 이 문제를 해결해 왔습니다. 그러나 일반 convolution layer는 구멍을 채울 때 convolution fi.. 2025. 1. 1.
[머신러닝] 6. 머신러닝 총정리 1. 알고리즘 간단 정리    1.1. K-NN    1.2. Decision Tree1.3. Random Forest    1.4. Linear/Logistic Regression    1.5. SVM2. 머신러닝 기법 장단점 비교3. 머신러닝 기법 코드 실험1. 알고리즘 간단 정리지금까지 알아 본 머신러닝 기법들을 간단히 정리하고, 여러가지 데이터셋들에 대해 실험해보고 결과 한번 확인해 보고 마무리 해보도록 하겠습니다.1.1. K-NN알고리즘학습 데이터들을 저장한다.예측해야 하는 데이터가 주어지면, 저장한 데이터들과의 거리를 측정한다.측정한 거리를 보고, 가장 가까운 K개의 데이터의 과반수 라벨, 또는 평균값을 결과값으로 예측한다.자세한 내용 : https://all-the-meaning.tistor.. 2024. 12. 6.
[머신러닝] 5. SVM (Support Vector Machine) 1. SVM이란?2. 결정 경계 찾기    2.1. 결정 경계와 서포트 벡터 방정식    2.2. 마진 측정 방법    2.3. ||w|| 최소화하기    2.4. 목적함수 설정하기    2.5. $\alpha$ 최대화하기    2.6. 정리3. 커널트릭4. 장단점5. SVM 코드 구현    5.1. scikit-learn에서의 SVM    5.2. SVC 커널 실험1. SVM이란?SVM은 머신러닝에 사용되는 최적의 결정 경계를 찾는 분류 알고리즘입니다.위 그림과 같이 데이터를 분류할 수 있는 최적의 결정 경계를 찾는 것이 SVM의 목표입니다. 이를 위해선 최적의 서포트 벡터를 찾아야 합니다. 서포트 벡터란, 두 분류 데이터의 경계를 가장 잘 나타낼 수 있는 데이터로, 서로 평행한 2개의 벡터를 선정하게.. 2024. 12. 4.
[머신러닝] 4. Linear Regression과 Logistic Regression 1. Linear Regression과 Logistic Regression    1.1. Linear Regression    1.2. Logistic Regression2. 손실 함수    2.1. Linear Regression    2.2. Logistic Regression3. 학습 방법    3.1. Linear Regression의 학습 방법    3.2. Logistic Regression의 학습 방법        A. sag, saga        B. liblinear        C. newton-cg        D. lbfgs4. 학습 규제    4.1. Early stopping    4.2. L1, L2 regularizer 5. 장단점6. Linear Regression과 Lo.. 2024. 12. 3.