AI가 만든 '고블린'은 어디서 왔을까 — OpenAI가 추적한 학습 데이터의 흔적

AI 이미지에서 자꾸 튀어나오는 그 '초록색 괴물'

ChatGPT나 이미지 생성 모델한테 "고블린 한 마리 그려줘"라고 하면, 신기하게도 다들 비슷하게 생긴 녹색 피부에 큰 코, 뾰족한 귀를 가진 캐릭터가 나오거든요. 누가 짜놓은 것도 아닌데 왜 이렇게 비슷할까요? OpenAI가 최근 공개한 글은 바로 이 질문에서 출발해요. 모델 안에 박혀 있는 특정 이미지의 '뿌리'를 거꾸로 추적해 보면 무엇이 보이는지를 정리한 일종의 연구 노트라고 보면 됩니다.

이게 왜 중요하냐면, 요즘 생성형 AI에 대해 가장 많이 나오는 질문이 "이 모델이 도대체 뭘 보고 배웠냐"이기 때문이에요. 그림 한 장, 문장 한 줄이 모델 가중치 어디에 어떻게 새겨져 있는지를 알 수 있다면 저작권 문제부터 환각(hallucination, 모델이 사실이 아닌 걸 사실처럼 만들어내는 현상)까지 풀어낼 실마리가 생기거든요.

학습 데이터의 '지문'을 추적한다는 것

AI 모델이 학습할 때는 수십억 장의 이미지와 텍스트가 쏟아져 들어가요. 그런데 그중에서 특정 개념, 예를 들어 '고블린'이라는 단어가 등장하는 사진과 일러스트는 사실 통계적으로 굉장히 편향돼 있어요. 판타지 게임 일러스트, 보드게임 카드, 영화 콘셉트 아트 같은 데서 반복적으로 나오는 시각적 클리셰가 있다 보니 모델이 그 평균 이미지를 학습하게 되는 거죠.

그러면 결과적으로 모델은 '고블린'이라는 단어를 들었을 때 가장 자주 같이 등장한 시각적 특징(녹색 피부, 큰 귀, 누더기 옷 등)을 합쳐서 출력하게 돼요. 이걸 기술 용어로는 'mode collapse'에 가까운 현상이라고 부르는데, 쉽게 말해 모델이 다양성을 잃고 가장 흔한 정답 하나로 수렴해버리는 거예요. OpenAI는 이런 수렴이 일어나는 지점을 찾아서, 어떤 종류의 이미지 클러스터가 그 결과를 만들어냈는지를 시각적으로 분석합니다.

단순한 호기심 이상의 의미

이 작업은 사실 학술적으로 'training data attribution'이라고 불리는 분야와 맞닿아 있어요. 모델 출력이 학습 데이터 중 어떤 샘플의 영향을 가장 크게 받았는지 역추적하는 기술인데요. 구글, 앤트로픽, 메타 같은 곳에서도 비슷한 연구를 진행하고 있어요. 이게 잘 풀리면 "이 그림은 학습 데이터의 특정 작품을 표절한 게 아니다"를 증명할 수도 있고, 반대로 "이 답변은 위키피디아 저 문서에서 90% 영향을 받았다"고 출처를 밝힐 수도 있게 됩니다.

경쟁 프로젝트로는 Anthropic의 'influence functions' 연구가 유명해요. 모델 한 줄의 답변이 학습 데이터 어떤 문서에서 나왔는지를 수학적으로 근사하는 방법이죠. 다만 수십억 파라미터 모델에서 이런 추적은 계산량이 어마어마해서 아직 실용 단계는 아니에요. OpenAI의 이번 글은 그 어려운 문제를 '고블린'이라는 친근한 사례로 풀어 보여줬다는 점에서 의미가 있어요.

한국 개발자에게 주는 시사점

생성형 AI를 서비스에 붙이는 분들이라면, 모델이 왜 그런 출력을 내는지 설명할 수 있어야 하는 시점이 머지않았어요. 특히 광고 이미지, 캐릭터 디자인, 콘텐츠 추천처럼 저작권이나 편향이 민감한 영역이라면 더더욱이요. 지금 당장은 LangChain이나 LlamaIndex로 RAG(검색 기반 생성)을 붙여서 출력의 출처를 표시하는 정도가 현실적이지만, 앞으로는 모델 자체가 "이 답변은 어떤 데이터에서 나왔다"를 알려주는 방식으로 발전할 가능성이 커요.

또 하나, 자체 도메인 데이터로 파인튜닝(fine-tuning, 기존 모델에 우리 데이터로 추가 학습시키는 것)을 하시는 분들은 특히 이 글에서 영감을 얻을 수 있어요. 학습 데이터의 편향이 그대로 모델 출력에 반영된다는 사실은, 데이터 큐레이션이 모델 성능만큼이나 중요하다는 걸 다시 일깨워줍니다.