비싼 모델이 오히려 더 저렴하다? Opus로 LLM 비용을 줄인 역설적인 이야기

비싼 모델을 썼는데 비용이 줄었다고요?

보통 LLM(대규모 언어 모델, 우리가 흔히 말하는 GPT나 Claude 같은 AI 모델이에요)을 서비스에 붙일 때 가장 먼저 고민하는 게 비용이거든요. 토큰 단위로 돈이 빠져나가다 보니, 사용자가 늘어날수록 청구서도 무섭게 늘어나죠. 그래서 대부분의 팀은 "가장 저렴한 모델로 시작해서 안 되면 좋은 모델로 올리자"는 전략을 씁니다. 그런데 Mendral이라는 회사가 그 반대로 했어요. 가장 비싼 프론티어 모델인 Claude Opus를 도입했더니 오히려 전체 LLM 비용이 줄어들었다는 거예요. 처음 들으면 "이게 무슨 소리야?" 싶지만, 자세히 들여다보면 꽤 합리적인 이야기입니다.

토큰 가격이 다가 아니다

많은 분들이 LLM 비용을 "입력 토큰 X원, 출력 토큰 Y원"으로만 계산해요. 그런데 실제 운영을 해보면 숨겨진 비용이 훨씬 큽니다. 이게 뭐냐면, 저렴한 모델은 한 번에 정답을 못 맞히는 경우가 많거든요. 그래서 같은 작업을 여러 번 시도하거나(retry), 여러 단계로 쪼개서 시키거나(chain-of-thought), 결과가 이상하면 다시 검증하는 로직을 추가해야 합니다. 이 과정에서 토큰이 눈덩이처럼 불어나요.

예를 들어 복잡한 코드 분석 작업을 시킨다고 해볼게요. 저렴한 모델한테 시키면 한 번에 못 풀어서 "먼저 함수 목록 뽑고", "그다음 의존성 분석하고", "마지막으로 종합해"라는 식으로 5단계 파이프라인을 만들어야 합니다. 각 단계마다 컨텍스트(앞에서 했던 작업 내용)를 다시 넣어줘야 하니까 입력 토큰이 누적으로 5배 들어가요. 반면 Opus 같은 고성능 모델은 한 번에 "이 코드 분석해줘" 하면 끝나거든요. 단가는 비싸도 호출 횟수와 토큰 총량이 적어서 결과적으로 더 저렴해지는 거죠.

엔지니어링 시간이라는 진짜 비용

또 하나 중요한 포인트가 있어요. 약한 모델로 안정적인 결과를 뽑아내려면 프롬프트를 정말 정성껏 다듬어야 합니다. "이렇게 하면 잘 되더라", "저렇게 하면 환각(hallucination, AI가 사실이 아닌 내용을 그럴듯하게 지어내는 현상)이 생기네" 하면서 며칠씩 튜닝해야 해요. 이 과정에서 들어가는 엔지니어 인건비가 사실 가장 비쌉니다. 시니어 개발자 하루 인건비가 토큰 비용 한 달치보다 훨씬 비싸거든요.

Mendral의 주장은 강한 모델을 쓰면 프롬프트가 단순해지고, 후처리 로직도 줄어들고, 디버깅 시간도 짧아진다는 거예요. 코드베이스가 가벼워지니까 유지보수도 편해집니다. 결국 "토큰 단가가 비싸도 총소유비용(TCO)은 낮다"는 결론이 나옵니다.

업계는 어떻게 움직이고 있을까

이런 흐름은 사실 OpenAI나 Anthropic도 비슷하게 이야기하고 있어요. GPT-5나 Claude Opus 4 시리즈가 나오면서 "라우팅" 개념이 강조되고 있거든요. 쉬운 작업은 작은 모델로, 어려운 작업은 큰 모델로 자동 분기시키는 건데, 문제는 "쉬운 작업과 어려운 작업을 나누는 분류 자체가 어렵다"는 거예요. 잘못 분류하면 결국 큰 모델로 다시 돌려야 하니까 비용이 두 배로 듭니다. 그래서 "애초에 그냥 큰 모델 하나로 통일하자"는 의견도 점점 힘을 얻고 있죠.

반면 Cursor나 Windsurf 같은 AI 코딩 도구들은 여전히 Haiku나 GPT-4o-mini 같은 가벼운 모델을 적극 활용합니다. 자동완성처럼 빈도가 높고 단순한 작업에서는 작은 모델이 압도적으로 유리하니까요. 결국 정답은 "내 워크로드의 성격에 따라 다르다"는 거예요.

한국 개발자에게 주는 시사점

국내 스타트업들도 LLM 도입 초기에는 거의 다 GPT-4o-mini나 Gemini Flash로 시작합니다. 가격 부담 때문이죠. 하지만 어느 순간 "왜 이렇게 결과가 들쭉날쭉하지?" 하면서 프롬프트 엔지니어링에 인력을 쏟아붓게 되거든요. 이때 한 번쯤 계산기를 두드려볼 만합니다. 엔지니어 인건비, 재시도 토큰, 검증 로직 비용까지 다 합치면 차라리 비싼 모델로 통일하는 게 더 쌀 수도 있어요.

특히 B2B SaaS처럼 정확도가 중요한 도메인이라면 더 그렇습니다. 한 번 잘못된 답변이 나가서 고객이 이탈하는 비용까지 생각하면 토큰 단가는 사소한 문제거든요. 반대로 채팅봇이나 추천처럼 "틀려도 큰일 안 나는" 영역이라면 작은 모델이 여전히 합리적입니다.