Ripple1 사전 학습 모델에 대한 공격 - RIPPLe NLP 문제를 푸는 방식은 일반적으로 사전학습된 언어모델을 불러와서 fine-tuning을 하는 식으로 이뤄지고 있습니다. 그런데 누군가 고의적으로 사전학습 모델을 오염(poisoning)시킬 수도 있을까요? "Weight Poisoning Attacks on Pre-trained Models"에서는 의도적으로 사전학습 모델을 오염시켜 일종의 모델에 대한 공격이 가능하다는 것을 보여주고 있습니다. 예를 들면, 스팸 분류를 하는 모델로 하여금 특정 단어가 들어가면 스팸으로 분류되지 않도록 할 수 있습니다. 더 나쁘게 사용될 경우, 특정 정당이나 입장을 지지하는 방향으로 모델이 편향되도록 학습시킬 수도 있습니다. 본 논문에선 RIPPLe이라는 방법을 소개합니다. RIPPLe은 미리 선정한 trigger 단어.. 2023. 7. 9. 이전 1 다음