
Anthropic이 Claude 5 패밀리의 첫 모델인 'Claude Fable 5'를 내놨어요. 기존 최상위 모델이던 Opus 위에 'Mythos급'이라는 새로운 티어를 만들면서, 역대 가장 똑똑한 모델이라는 소개와 함께 등장했는데요. 그런데 소프트웨어 공급망 보안 기업인 Endor Labs가 자체적으로 코딩 작업 성능을 평가한 결과를 공개하면서 분위기가 묘해졌어요. 요지는 '발표의 위용과 달리, 실제 코딩 태스크에서는 중위권 수준'이라는 거예요.
공식 벤치마크와 독립 평가는 왜 다를까요
새 모델이 나올 때마다 반복되는 장면이 있어요. 발표날에는 자체 벤치마크 신기록 그래프가 쏟아지고, 몇 주 뒤 제3자들이 직접 돌려본 결과가 나오면서 현실 점검이 이뤄지는 패턴인데요. 이 간극이 생기는 이유는 몇 가지로 정리할 수 있어요.
첫째는 벤치마크 오염이에요. 이게 뭐냐면, 모델을 학습시키는 웹 데이터 안에 벤치마크 문제와 정답이 섞여 들어가는 현상이에요. 시험 문제를 미리 보고 시험을 치는 셈이라 점수가 실력보다 부풀려지죠. 유명한 벤치마크일수록 인터넷에 풀이가 많이 돌아다녀서 오염되기도 쉬워요. 둘째는 벤치마크 최적화예요. 모델 개발사들이 주요 벤치마크에서 점수가 잘 나오도록 튜닝에 공을 들이다 보면, 벤치마크 점수는 오르는데 그 점수가 원래 대표하던 일반적인 능력은 그만큼 안 오르는 일이 생겨요. '지표가 목표가 되는 순간 좋은 지표이기를 멈춘다'는 굿하트의 법칙이 딱 들어맞는 상황이죠.
셋째는 평가하는 일 자체가 다르다는 거예요. 공식 벤치마크는 문제가 깔끔하게 정의돼 있는 경우가 많은데, 실무 코딩은 지저분한 레거시 코드, 모호한 요구사항, 거대한 컨텍스트 속에서 이뤄지잖아요. 독립 평가가 실무에 가까운 시나리오를 쓸수록 점수는 깎이기 마련이에요. 특히 Endor Labs처럼 보안을 다루는 회사라면 '생성된 코드에 취약점이 얼마나 섞여 있는가' 같은 축으로 봤을 텐데, 이건 통상의 코딩 벤치마크가 잘 안 재는 영역이거든요. '코딩 성능'이라는 게 사실 하나의 숫자가 아니라 알고리즘 풀이, 버그 수정, 리팩토링, 보안 코딩처럼 여러 축으로 갈라지는 능력이라는 걸 보여주는 사례예요.
업계 맥락: 티어 인플레이션의 시대
이번 건이 더 눈길을 끄는 건 모델 네이밍 때문이기도 해요. 최상위라던 티어 위에 또 상위 티어가 생기는 '티어 인플레이션'이 업계 전반에서 벌어지고 있거든요. 이름이 거창해지고 가격이 올라간다고 해서 내 작업에서의 성능이 비례해서 오른다는 보장은 없어요. OpenAI든 Google이든 새 플래그십이 나올 때마다 비슷한 검증 논쟁을 겪어왔고, 이건 특정 회사만의 문제라기보다 자체 발표 벤치마크라는 관행 자체의 한계에 가까워요.
한국 개발자에게 주는 시사점
실무적인 결론은 명확해요. 모델 선택을 발표 자료의 표로 하지 말고, 내 워크로드로 직접 평가하라는 거예요. 거창할 필요 없이, 우리 팀이 자주 시키는 작업 20~30개를 모아 내부 평가셋(evals)을 만들어두면 돼요. 실제 코드베이스의 버그 수정 사례, 자주 쓰는 리팩토링 패턴, 우리 도메인 특유의 요구사항 같은 것들로요. 새 모델이 나올 때마다 이 세트를 돌려보면 한나절 만에 우리 기준의 성적표가 나오거든요. 비용 관점도 빼놓을 수 없어요. 최상위 모델이 모든 작업에 정답은 아니라서, 단순 작업은 저렴한 모델로 보내고 어려운 작업만 비싼 모델로 보내는 라우팅 구성이 실속 있는 경우가 많아요.
마무리
정리하면, 새 플래그십 모델의 화려한 데뷔와 독립 평가의 냉정한 성적표 사이에서 우리가 챙길 건 '내 작업 기준의 검증 체계'라는 이야기예요. 여러분 팀은 새 모델이 나오면 어떻게 검증하시나요? 자체 평가셋을 운영해 본 경험이 있다면 댓글로 공유해 주세요.
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공