GPT-5.5, 오픈소스 GLM-5.2보다 환각 3배? 거대 모델 신화의 붕괴

더 크고 더 비싼 모델이 항상 더 똑똑할까? 이번 비교에서 OpenAI의 GPT-5.5가 MIT 라이선스로 공개된 GLM-5.2보다 환각(없는 사실을 지어내는 현상)을 약 3배 더 자주 일으킨 것으로 나타났다. 핵심 메시지는 '파라미터 규모 = 신뢰성'이라는 공식이 더 이상 통하지 않는다는 점이다. 거대 폐쇄형 모델은 추론 능력은 뛰어나지만, 자신감 있게 틀린 답을 내놓는 경향이 오히려 강해질 수 있다. 반면 잘 정렬된 오픈소스 모델은 작은 덩치로도 사실성에서 앞설 수 있다. 한국 IT 종사자에게 시사점은 분명하다. 무조건 최신 플래그십 API를 붙이기보다, 우리 서비스의 실제 태스크에 맞춰 환각률·비용·라이선스를 직접 벤치마크해야 한다는 것이다. 특히 MIT 라이선스 모델은 사내 배포와 파인튜닝이 자유로워, 데이터 주권과 비용 측면에서 현실적인 대안이 된다. 모델 선택의 기준을 '크기'에서 '검증된 신뢰성'으로 바꿀 때다.

이 글도 읽어보세요

Hacker News 브라우저 안에 통째로 부활한 Windows XP — 게임보이와 아이팟까지 돌아가는 포트폴리오