AI한테 팩트체크 맡기면 안 되는 이유: 최신 모델 5개, 사실 판단의 67%가 엇갈렸다

같은 사실을 물었더니 AI들이 서로 다른 답을 했어요

요즘은 뭔가 궁금하거나 의심스러운 정보가 있으면 챗봇한테 '이거 사실이야?'라고 물어보는 게 일상이 됐죠. 답이 워낙 그럴듯하게 나오니까 우리도 모르게 'AI가 그렇다면 맞겠지' 하고 넘어가게 되거든요. 그런데 여기에 아주 날카로운 질문을 던진 연구가 나왔어요. 똑같은 사실 주장을 여러 AI한테 동시에 물어보면, 과연 걔네끼리는 답이 일치할까요?

결과가 꽤 충격적이에요. 지금 가장 똑똑하다고 평가받는 최신 LLM(거대 언어 모델, 챗봇의 두뇌 역할을 하는 AI) 다섯 개를 모아놓고, 실제 세상에서 팩트체크가 필요했던 주장 1,000개를 똑같이 입력했거든요. 그랬더니 이 다섯 모델이 '사실이다 / 아니다'를 두고 67%, 그러니까 세 건 중 두 건꼴로 서로 의견이 갈렸어요. 우리가 'AI는 객관적인 사실 판단 기계'라고 믿고 있었다면, 그 믿음에 금이 가는 숫자죠.

왜 이런 일이 벌어질까요

이게 뭐냐면, LLM은 사실을 '검색'해서 알려주는 게 아니라, 학습한 데이터를 바탕으로 '가장 그럴듯한 문장'을 만들어내는 도구거든요. 그러다 보니 모델마다 답이 달라질 수밖에 없는 이유가 몇 가지 있어요.

첫째, 학습 데이터가 다 달라요. 각 회사가 인터넷에서 긁어모은 텍스트가 조금씩 다르고, 어떤 자료를 더 신뢰하도록 가중치를 줬는지도 달라요. 둘째, RLHF(사람 피드백으로 모델을 다듬는 과정)에서 어떤 답을 '좋은 답'으로 칠지 기준이 회사마다 달라요. 어떤 모델은 애매하면 '잘 모르겠다'고 몸을 사리고, 어떤 모델은 일단 단정적으로 답하도록 학습됐죠. 셋째, 팩트체크 대상 주장 자체가 원래 애매한 게 많아요. '대체로 맞지만 맥락에 따라 다른' 주장은 사람 전문가들끼리도 의견이 갈리거든요.

그래서 67%라는 숫자를 '5개 중 적어도 하나는 틀렸다'로만 읽으면 안 돼요. 오히려 '진실과 거짓의 경계에 있는 주장이 세상에 이렇게 많고, AI는 그 경계에서 일관성을 보장하지 못한다'는 쪽으로 읽는 게 더 정확해요.

'LLM을 심판으로 쓴다'는 트렌드에 던지는 경고

요즘 업계에서 핫한 기법 중에 'LLM-as-a-judge'라는 게 있어요. 사람이 일일이 채점하기 힘드니까, 강력한 LLM한테 다른 AI의 답이나 콘텐츠를 평가하게 시키는 방식이에요. 자동 팩트체크 파이프라인, 콘텐츠 검수, 모델 성능 평가에 다 쓰이죠. 그런데 이번 연구는 그 전제, 즉 '강한 LLM 하나면 객관적인 심판이 된다'는 가정을 정면으로 흔들어요. 심판으로 쓸 모델을 뭘 고르느냐에 따라 결과가 통째로 바뀔 수 있다는 뜻이니까요.

그래서 대안으로 나오는 게 '앙상블(ensemble)' 접근이에요. 여러 모델한테 물어보고 다수결을 내거나, 의견이 갈리는 항목만 골라서 사람한테 넘기는 방식이죠. 이번 연구 결과가 역설적으로 쓸모 있는 지점이 바로 여기예요. 다섯 모델이 만장일치로 답한 33%는 비교적 안심하고 자동 처리하고, 의견이 갈린 67%는 '사람 검토가 필요한 회색지대'로 분류하는 식으로요.

한국 개발자에게 주는 시사점

당장 실무에 적용할 교훈이 분명해요. AI를 사실 검증에 쓰는 기능을 만들고 있다면, 모델 하나의 답을 그대로 신뢰하는 구조는 위험하다는 거예요. 특히 의료, 법률, 금융처럼 틀리면 큰일 나는 도메인이라면 더더욱요.

실용적인 패턴 몇 가지를 추천하면, 첫째는 중요한 판단엔 모델 2~3개를 돌려서 일치할 때만 자동 통과시키고 갈리면 사람에게 넘기는 구조예요. 둘째는 모델한테 '사실/거짓'만 묻지 말고 '얼마나 확신하는지'와 '근거가 뭔지'를 같이 출력하게 해서, 확신이 낮은 답을 걸러내는 거고요. 셋째는 RAG(검색 결과를 근거로 답하게 하는 기법)를 붙여서, 모델의 기억이 아니라 실제 출처를 보고 판단하게 만드는 거예요.

핵심을 한 줄로 정리하면, AI는 '정답 기계'가 아니라 '그럴듯한 답 생성기'이고, 사실 판단처럼 정답이 중요한 영역에선 여러 의견을 교차검증하는 안전장치가 꼭 필요하다는 거예요. 여러분은 지금 만들고 있는 서비스에서 AI의 답을 얼마나 그대로 믿고 사용자에게 보여주고 있나요? 한번 점검해볼 만하지 않을까요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 부동소수점의 함정: floor와 ceil이 denormal 숫자에서 CPU와 GPU 다르게 동작하는 이유