처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Reddit 2026.04.18 26

[심층분석] Opus 4.7이 4.6보다 못하다고? NYT Connections 벤치마크에서 드러난 충격적인 점수 역전 현상

Reddit 원문 보기

새 모델이 나왔는데 점수가 절반으로 떨어졌다?

안녕하세요, DayCraft 에디터예요. 오늘은 진짜 흥미로운 소식을 가지고 왔는데요. 최신 모델인 Claude Opus 4.7이 NYT Connections Extended라는 벤치마크에서 41.0%를 기록했어요. 그런데 한 세대 전 모델인 Opus 4.6은 같은 테스트에서 94.7%를 받았거든요. 네, 제대로 읽으신 거 맞아요. 최신 모델이 구형 모델보다 53%포인트나 낮은 점수를 받은 거예요.

이게 왜 화제냐면요, 보통 AI 모델은 버전이 올라가면 성능이 같이 올라가는 게 일반적인 흐름이잖아요. 그런데 이번엔 정반대 결과가 나온 거예요. 마치 아이폰 16이 아이폰 15보다 카메라 화질이 떨어지는 것 같은 느낌이랄까요. 그것도 아주 크게요.

그래서 오늘은 이 벤치마크가 정확히 뭘 측정하는지, 왜 이런 일이 벌어졌는지, 그리고 이게 우리 개발자들에게 어떤 의미인지를 하나씩 풀어볼게요.

NYT Connections Extended가 뭐하는 녀석인가요?

먼저 이 벤치마크부터 이해해야 해요. NYT Connections는 뉴욕타임스에서 만든 단어 퍼즐 게임이거든요. 이게 뭐냐면, 16개의 단어가 주어지고 이걸 공통점이 있는 4개씩 묶어서 4개의 그룹으로 나누는 게임이에요.

예를 들어 볼게요. 이런 단어들이 섞여서 나와요.

  • APPLE, BANANA, CHERRY, GRAPE (과일)
  • RED, BLUE, GREEN, YELLOW (색깔)
  • DOG, CAT, BIRD, FISH (동물)
  • JAZZ, ROCK, POP, BLUES (음악 장르)
  • 실제 게임에서는 이렇게 쉽지 않아요. "BLUE는 색깔인데 BLUES는 음악 장르"처럼 애매하게 걸치는 단어들이 섞여 있어서 헷갈리게 만들어요. 사람도 풀다 보면 머리가 쥐어뜯기는 그런 퍼즐이에요.

    lechmazur라는 개발자가 만든 Extended 버전은 여기서 한 발 더 나아가서요. 원래 퍼즐에 트릭 워드(trick word) 즉, 함정 단어를 최대 4개까지 추가로 섞어 놨어요. 그러니까 원래 16개에서 최대 20개 단어를 보고 "이 중에서 진짜 답이 되는 16개를 골라서 그룹핑해라"라는 훨씬 어려운 문제가 되는 거예요. 이게 AI의 언어 이해력, 추론력, 맥락 파악 능력을 종합적으로 시험하는 도구로 꽤 유명해졌어요.

    총 940개의 퍼즐로 평가하니까 통계적으로도 꽤 탄탄한 벤치마크라고 볼 수 있어요.

    리더보드를 한번 훑어볼까요?

    현재 순위표의 상위권을 보면 이래요.

  • 1위: Gemini 3.1 Pro Preview — 98.4%
  • 2위: Gemini 3 Pro Preview — 96.3%
  • 3위: Claude Opus 4.6 (high reasoning) — 94.7%
  • 4위: GPT-5.4 (xhigh reasoning) — 94.0%
  • 5위: GPT-5.4 (high reasoning) — 93.6%
  • 여기까지는 우리가 아는 "프론티어급" 모델들이 상위권을 차지하는 평범한 그림이에요. 그런데 스크롤을 쭉 내리다 보면요.

  • 39위: Claude Opus 4.7 (high reasoning) — 41.0%
헉 소리가 나오는 순위죠. 같은 Anthropic의 Claude Opus 4.5조차도 60.3%를 받았는데, 최신 버전인 4.7이 그보다도 한참 아래에 있어요. 심지어 중간급 모델인 Qwen3.5-27B(60.7%)에게도 밀려요.

그럼 도대체 왜 이런 일이?

자, 여기서 우리가 냉정하게 생각해볼 필요가 있어요. 이런 현상이 나오는 데는 몇 가지 가능성이 있거든요.

1. 모델의 성격 자체가 바뀌었을 가능성

AI 모델 학습은요, 쉽게 말해서 "어떤 일을 더 잘하게 만들까"를 결정하는 과정이에요. 이게 마치 학생을 수학에 집중시키면 국어 점수가 약간 떨어지는 것과 비슷해요. 그걸 트레이드오프(trade-off), 즉 한쪽을 얻으면 다른 쪽을 포기해야 하는 관계라고 불러요.

Opus 4.7이 코딩, 에이전트 작업, 도구 사용 같은 실무 능력에 훨씬 더 최적화된 모델일 수 있어요. 그 대신 이런 언어 퍼즐 같은 순수 추론 영역에서는 약해진 거죠. Anthropic이 최근 "에이전트 코딩"과 "컴퓨터 사용" 방향으로 모델을 밀어붙이고 있는 걸 보면, 이런 방향성 변화가 벤치마크에 영향을 줬을 가능성이 커요.

2. 추론 모드 설정 문제

Claude는 extended thinking, 즉 "길게 생각하기" 모드가 있거든요. 이게 뭐냐면, 답을 바로 내놓는 게 아니라 내부적으로 단계별로 생각을 쭉 펼쳐본 다음에 답을 내는 방식이에요. 사람이 종이에 계산 과정을 쓰면서 문제 푸는 것처럼요.

이 벤치마크에서 "high reasoning"이라고 표시돼 있긴 한데, 새 모델에서는 추론 토큰을 사용하는 방식이 달라졌을 수도 있어요. 예전과 같은 설정이 새 모델에서 최적이 아닐 가능성도 있다는 뜻이에요.

3. 프롬프트 포맷의 미묘한 차이

때로는 모델이 특정 포맷이나 지시사항에 민감하게 반응해요. Opus 4.7이 4.6과 다른 프롬프트 포맷을 선호한다면, 동일한 평가 스크립트를 돌렸을 때 부당하게 불리한 결과가 나올 수도 있어요.

벤치마크 하나로 모델을 판단해도 될까요?

이 지점에서 우리가 정말 진지하게 고민해야 할 포인트가 있어요. 벤치마크는 지도일 뿐 실제 영토가 아니에요.

무슨 말이냐면요. 학창 시절에 수능 모의고사 점수가 높다고 반드시 실제 업무 능력이 좋은 건 아니잖아요. AI 벤치마크도 똑같아요. NYT Connections에서 98%를 받는 Gemini가 실제 코딩 작업에서 항상 최고인 건 아니에요. 각 벤치마크는 모델의 특정 단면만 보여줄 뿐이거든요.

그래서 요즘 업계에서는 이런 이야기가 많이 나와요. "벤치마크 점수로 줄 세우기는 이제 그만 하자." 대신 내 실제 유즈케이스에서 돌려보고 판단하자는 분위기가 강해지고 있어요. 이걸 eval-driven development, 한국말로 풀면 "평가 주도 개발"이라고 불러요. 내가 하려는 일에 맞는 평가 데이터셋을 직접 만들어서, 모델을 고를 때마다 그걸로 검증하는 거죠.

한국 개발자 입장에서 어떻게 받아들이면 좋을까요?

저는 이 소식에서 세 가지 교훈을 뽑아보고 싶어요.

교훈 1: "최신 = 최고"라는 공식은 깨졌어요

지금까지 우리는 새 모델이 나오면 일단 갈아타는 게 맞다고 생각했어요. 그런데 이번 사례를 보면 작업 특성에 따라 구버전이 더 나을 수도 있다는 걸 알 수 있어요.

예를 들어 언어 퍼즐이나 창의적인 글쓰기, 복잡한 추론이 필요한 작업이라면 Opus 4.6이 여전히 더 좋은 선택일 수 있어요. 반면 에이전트 워크플로우나 도구 호출이 많은 작업이라면 4.7이 더 적합할 수도 있고요.

실무 시나리오로 풀어볼게요. 지금 Claude API를 써서 챗봇을 만들고 있다면, 업그레이드할 때 A/B 테스트를 꼭 돌려보세요. 트래픽의 일부만 새 모델로 보내서 품질 지표를 비교한 다음 전체로 확대하는 방식이요. 그냥 모델 이름만 바꿔 배포했다가는 서비스 품질이 예상치 못하게 떨어질 수 있어요.

교훈 2: 자체 평가셋을 갖고 있어야 해요

내가 만드는 서비스에서 AI가 어떤 일을 해야 하는지, 그 일을 잘 하는지 측정하는 나만의 테스트셋을 갖고 있어야 해요. 방법은 생각보다 간단해요.

1. 실제 사용자 요청 중에서 대표적인 것 50~100개를 뽑아요
2. 각 요청에 대한 "이상적인 답변"을 직접 작성해두거나 정답 기준을 정해요
3. 새 모델이 나올 때마다 이 셋을 돌려서 점수를 매겨요

이렇게 하면 외부 벤치마크에 휘둘리지 않고 "내 도메인에서는 어떤 모델이 최적인가"를 스스로 판단할 수 있어요.

교훈 3: 프리뷰/베타 단계를 경계해요

새로 나온 모델은 추후 업데이트를 통해 성능이 바뀌는 경우가 많아요. 중요한 프로덕션 서비스라면, 모델 버전을 핀 고정(pinning) 즉, 특정 날짜의 스냅샷 버전으로 고정해 두는 게 좋아요. 그래야 어느 날 갑자기 성능이 바뀌어서 서비스가 이상해지는 일을 막을 수 있어요.

앞으로 어떻게 될까요?

이번 결과는 분명 Anthropic 입장에서 부담스러운 데이터일 거예요. 하지만 역사적으로 보면 초기 벤치마크에서 약점을 보였던 모델도 이후 패치나 시스템 프롬프트 개선을 통해 성능이 많이 회복된 사례가 있어요. 아마 몇 주 안에 Opus 4.7의 이 점수도 조정되거나, 제대로 된 설정이 공유되면서 개선된 수치가 나올 가능성이 있어요.

더 큰 그림에서 보면, 이 사건은 벤치마크 문화 자체에 질문을 던져요. 모델이 똑똑해질수록, 벤치마크 하나로 그 능력을 담아내기는 점점 어려워지고 있거든요. 앞으로는 도메인별, 태스크별로 더 세분화된 평가 방식이 주류가 될 거예요.

마무리하며

정리하면요. 최신 모델이 무조건 좋은 건 아니고, 벤치마크 하나로 판단하지도 말고, 내 작업에 맞는 평가셋을 직접 갖고 있어야 한다는 게 오늘의 핵심이에요.

그래서 여러분께 질문을 하나 던져볼게요. 혹시 지금 업무에서 AI 모델을 쓰고 계신다면, 버전을 업데이트할 때 어떻게 검증하시나요? 그냥 바꿔서 써보시나요, 아니면 체계적인 비교 프로세스가 있으신가요? 댓글로 각자의 방식을 공유해주시면 다른 독자분들께도 큰 도움이 될 것 같아요. 오늘도 좋은 하루 보내세요!


🔗 출처: Reddit

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.