인공지능 이야기

인간과 같이 차별하는 인공지능

빈이름 2025. 1. 12. 15:12

인공지능은 정말 공정할까?

우리가 흔히 인공지능에 기대하는 점 중 하나는 인공지능은 사람과 달리 객관적이고 중립적으로 판단할 것이라는 점입니다. 인간과 같은 감정이 없기 때문에 오로지 데이터만 근거하여 중립적인 판단을 내릴 수 있을 것만 같죠. 하지만 정말 인공지능이 생각만큼 중립적이고 객관적일까요?

 

인공지능의 편향은 생각보다 흔하고 빈번히 일어나는 문제입니다. 왜 데이터에만 의존하여 판단을 내리는 인공지능이 사람과 같이 편향된 결과를 내놓게 되는 걸까요?

 

이와 관련하여 kaggle에서 편향에 대해 잘 소개된 글이 있습니다. 여기에서 소개하는 6가지 유형의 인공지능 편향에 대해 살펴보고, 왜 편향이 발생하는지, 어떻게 하면 편향을 줄일 수 있을지에 대해 생각해 보도록 하겠습니다.

 

참고 글 : https://www.kaggle.com/code/alexisbcook/identifying-bias-in-ai

6가지 유형의 편향 소개

인공지능에서 발생하는 편향 역시 저희 사회의 편향만큼이나 복잡하고 어지러운 문제입니다. 따라서 이런 편향들을 명확하게 분류하는 것은 어렵습니다. 아래에서 소개하는 6가지 유형의 편향은 편향의 구체적인 유형이라기 보단, 인공지능 모델을 설계하고 학습하는 과정에서 발생할 수 있는 편향들에 대해 소개했다고 볼 수 있습니다. 아래와 같이 말이죠.

https://arxiv.org/pdf/1901.10002

그럼 지금부터 6가지 편향들에 대해 살펴보겠습니다.

1. Historical Bias

Historical Bias는 데이터를 수집하는 단계에서 발생하는 편향으로, 이미 저희 사이에서 널리 퍼져 있는 편향으로 인해 모델도 똑같은 편향을 갖게 되는 경우입니다.

 

저희 인간들이 굉장히 편향적이라는 것은 누구나 아는 사실입니다. 문제는 이런 편향성이 특히 인터넷에서 크게 드러난다는 점입니다. 대부분의 인공지능 모델 학습에 사용되는 데이터는 인터넷에서 수집됩니다. 따라서 이미 편향적인 인터넷의 데이터를 사용해 인공지능 모델을 학습한다면, 당연히 인공지능 모델도 그 편향성을 그대로 답습하게 됩니다.

 

실제 사례

아마존은 AI 기반 채용 시스템을 이용해 사람들을 보다 공정하고 효율적으로 채용하려 했지만, 이 AI 시스템은 여성 지원자에게 불리하게 작용한다는 것을 뒤늦게 알게 되었습니다. 이는 AI 채용 시스템이 과거 차별적인 채용 데이터를 그대로 학습했기 때문이었습니다. 결국 AI 채용 시스템은 원래 해결하려 했던 문제를 해결하지 못했고, 아마존은 이 시스템을 폐기해야 했습니다.

 

오직 데이터에만 기반하여 공정하고 중립적인 판단을 내릴 것으로 기대했던 인공지능이 기존의 인간 면접관들과 같이 똑같이 편향적이고 차별적인 채용 행태를 보이게 되었습니다. 과거 여성을 차별했던 채용 데이터가 그대로 인공지능 학습에 사용되었기 때문이죠.

위 사례를 보면 알 수 있듯이 데이터를 설계하는 데이터에서 이런 historical bias가 존재할 수 있다는 것을 인지하고, 해당 편향을 최대한 배제하려는 노력이 필요합니다.

 

예를 들면 과거의 채용 데이터에서 성별 관련 항목을 빼고 학습을 시켰다면 조금 다른 결과를 낳았을 수도 있겠죠? (이렇게 간단히 해결되진 않겠지만 간단히 생각해 보면) 혹은 채용 시스템을 내놓기 전에 검토 과정에서 모델이 갖는 편향성에 대해 충분히 검토를 했다면 여성에 차별적이라는 것을 사전에 인지하여 채용 시스템을 보강하던지, 폐기하던지 하여 사전에 방지할 수도 있었을 겁니다.

2. Representation Bias

Representation Bias는 데이터셋을 수집하는 과정에서 편향적인 소스로부터 데이터를 수집해서 생기는 편향입니다. 쉽게 말하면 좀 더 다양한 데이터를 준비하지 못해서 생기는 편향이죠.

 

예를 들면, 시민들의 교통 맞춤 할인 혜택 서비스를 기획하기 위해 스마트폰 데이터를 수집했습니다. 하지만 이 데이터로 사람들의 교통 이용을 파악한다면, 스마트폰을 사용하지 않는 노인들의 데이터는 얻기 힘듭니다. 젊은 사람들의 데이터에 편향되게 되는 것이죠.

 

실제 사례

영국에서는 여권사진의 오류를 검사하는 인공지능을 출시한 바가 있습니다. 이 인공지능은 신속한 여권 신청과 발급 절차를 위해 개발되었지만 흑인 여성의 사진이 백인 남성의 사진보다 여권 규정에 부적합하다는 판정을 받을 가능성이 두 배 이상 높았다고 합니다. 이는 인공지능 모델을 학습할 때 흑인 여성의 사진 데이터가 백인 남성의 사진 데이터보다 부족해서 발생한 문제입니다.

https://www.aitimes.com/news/articleView.html?idxno=132833&utm_source=chatgpt.com

 

이런 식으로 편향되게 데이터를 수집한다면 인공지능도 그 데이터의 패턴을 그대로 따라가는 문제가 발생하게 됩니다. 따라서 데이터 수집 단계에서 좀 더 신경 써서 모든 분류가 동등한 비율로 구성될 수 있도록 할 필요가 있습니다.

3. Measurement Bias

Measurement bias는 수집한 데이터가 특정 그룹마다 서로 다른 경향을 보이는 경우에 발생하는 편향입니다. 예를 들면 학생들의 신장을 조사했는데 초등학생의 평균 키와 고등학생의 평균 키는 큰 차이가 있겠죠? 하지만 이런 그룹에 의한 차이를 고려하지 않았을 때 생기게 되는 문제입니다.

 

실제 사례

한 지역 병원에서 큰 병이 발생할 위험도가 높은 환자를 선별하기 위해 '과거 진단 기록', '처방 기록', '인구통계적 데이터'를 활용해 인공지능 시스템을 학습시켰습니다. 하지만 기대와 다르게 이 시스템은 똑같이 위험하더라도 백인에 비해 흑인은 잘 찾아내지 못했습니다.
그 이유는 흑인은 역사적으로 병원 시스템에 대한 불신이 깊어 백인에 비해 병원을 가는 빈도가 적었다고 합니다. 이로 인해 백인과 같은 몸상태이더라도 병원을 가거나 약을 처방 받은 횟수가 훨씬 적어 위험도가 백인에 비해 낮게 측정되었습니다.

 

대상 그룹에 따라 데이터가 다르게 나타날 수 있다는 것을 인지해야 합니다. 위 사례의 경우 흑인이 병원에 가는 경우가 적다는 것을 인지하고 흑인에 좀 더 높은 가중치를 부여할 수 있도록 인공지능 모델을 설계했다면 좀 더 나은 결과를 낳을 수 있었을 겁니다.

4. Aggregation Bias

Aggregation bias는 데이터셋을 정의할 때 타겟 그룹을 잘못 묶어서 생기는 편향입니다. 만약 서로 다른 특성을 갖고 있는 유형이 같은 그룹으로 묶인다면 해당 유형들에 대해 모델이 일관된 성능을 낼 수 없겠죠? 앞의 Measurement bias와 유사하기도 하고, 같은 말을 하는 것 같지만 measurement bias는 데이터의 수집 단계에서 발생하는 bias이고, aggregation bias는 데이터 수집이 완료된 뒤, 모델을 설계할 때 발생하는 bias입니다. 데이터를 적절히 잘 수집했더라도 (measurement bias가 발생하지 않았더라도) 이를 잘못 분류하면 aggregation bias가 생겨 모델이 제대로 작동하지 않게 되는 것이죠.

 

실제 사례

히스패닉은 당뇨병 관련 질환의 발병률이 높습니다. 만약 서양에서 당뇨병 진단 AI 서비스를 제작할 때, 인종에 대한 고려를 하지 않는다면 당뇨병이 발생할 위험이 높은 히스패닉을 제대로 찾지 못할 수 있습니다.
따라서 모델을 학습할 때 인종에 대한 정보를 함께 입력해주거나, 히스패닉의 데이터는 다른 모델을 하나 더 학습하는 식으로 인종 그룹을 구분하여 학습해야 합니다.

 

위와 같이 aggregation bias는 모델을 어떻게 설계하냐에 따라서 해결할 수 있는 bias입니다.

5. Evaluation Bias

Evaluation bias는 모델의 성능을 평가하는데 사용되는 테스트셋이 실제 데이터를 제대로 나타내지 못한 경우 발생할 수 있는 편향입니다. 모델 설계를 할 때 항상 훈련셋과 테스트셋을 구분을 하죠? 대회나 벤치마크로 주어지는 데이터셋은 테스트셋이 주어지지만 실제 프로젝트를 수행할 때는 테스트셋도 직접 구성해야 합니다. 그런데 마련한 테스트셋이 실제 프로젝트가 적용될 상황을 대표하지 못한다면 테스트셋에 점수가 높게 나타나더라도 실제 성능이 잘 나오지 않겠죠?

 

실제 사례

Gender shades에 관련한 논문에선 사람의 얼굴을 인식하는데 자주 사용되는 2개의 벤치마크 데이터셋(IJB-A와 Adience)이 밝은 색의 피부를 가진 사람 얼굴 위주로 데이터가 구성되어 있다는 사실을 밝혀냈습니다. (각각 80%가량) 이로 인해서 현재 개발되어 있는 성능이 가장 좋다고 알려진 모델들이 이 2개의 벤치마크 데이터셋에서는 점수가 가장 높게 나왔지만, 사실 유색 인종들에 대해서는 성능이 크게 떨어지는 문제가 있었다고 합니다.

 

테스트셋이 백인 얼굴 위주로 구성되어 있었기 때문에 모델이 테스트셋에 대해 점수를 높게 받았어도 유색 인종들에 대해서는 점수를 낮게 받게 되었습니다. 만약 이 모델을 사용해 전세계 사람들에게 얼굴 인식 관련 서비스를 제공하려고 했다면 서비스의 품질이 형편없었을 겁니다. 이런 식으로 꼭 전세계 사람들을 대상으로 하진 않더라도, 본인이 만들려는 시스템이 어떤 대상들에게 제공되는지를 잘 파악하여 이를 잘 반영할 수 있도록 테스트셋을 잘 구성해야 합니다.

6. Deployment Bias

Deployment bias는 모델이 원래 설계된 방식과 다르게 사용하려고 해서 생기는 편향입니다. 예를 들면 자율자동차에 사용하기 위해 설계된 사람 인식 모델을 이용해 실내 cctv에서 사람을 인식하는데 사용하려고 하면 문제가 발생할 수 있습니다. 자율자동차에 사용된 사람 인식 모델은 도로에서 사람을 찾는데 특화되어 있기 때문에 실내 cctv 영상에서는 사람을 찾기 어려워할 수도 있습니다.

 

실제 사례

미국의 사법시스템에서는 AI를 이용해 수감자들의 범죄 재발율을 score로 예측한 뒤, 이를 참고하여 어떻게 처리할지 결정합니다. 하지만 범죄 재발율을 계산하는 AI는 판결을 위해 설계된 것이 아닙니다. 따라서 이 시스템을 판결에 참고용으로 사용하는 것은 공정하지 못할 수도 있습니다. 범죄 재발율을 예측하는 시스템이기 때문에 초범에 대한 데이터는 고려되지 않았을 수도 있고, 의도치 못한 차별이나 편향이 발생하게 될 수도 있기 때문입니다. 이런 재판과 관련한 경우에 AI 시스템을 사용하는 것은 특히 더 주의해야 합니다.

 

만약 이미 개발된 모델을 사용해 실제 서비스에 적용을 하려고 한다면 해당 모델이 내가 만들려는 서비스의 목적에 어울리는 모델인지를 먼저 고려해야 합니다.

 

편향적이지 않은 공정한 AI 시스템을 위해 지속적인 관심과 노력이 필요합니다

AI 시스템은 저희가 생각하는만큼 완벽하지 않고 공정하지 않으며, 모든걸 해결해주는 만능장치가 아닙니다. 특히 이런 편향은 저희 인간들이 만들어낸 데이터를 사용하는 이상 필연적으로 발생하는 문제입니다. 하지만 이런 편향들은 충분히 완화할 수 있는 문제입니다.

 

이런 편향을 완화하기 위해선 모델을 설계하고 개발할 때, 모델이 단순히 높은 점수를 받는 것만을 고려할 것이 아니라 실제로 어떻게 사용될 것인지, 사회에 어떤 영향을 미칠 지를 함께 생각해야 합니다. 아무리 성능이 좋아도 모델이 차별적이고 편향적인 결과를 내놓는다면 좋은 시스템으로써의 역할을 할 수가 없게 됩니다.

 

기술에 대해 열심히 공부해야 하는 만큼 이런 윤리적인 것이나 사회적인 것에도 관심을 갖고 모델을 설계할 때 고려할 수 있어야 합니다. 이를 위해 지속적으로 노력한다면, 저희가 기대하는 공정한 AI 시스템도 만들어 낼 수 있을 겁니다!