샤오미 MiMo-v2.5 가격 99% 인하, AI API 가격 전쟁의 다음 라운드

99% 인하라는 충격적인 헤드라인

샤오미가 자체 개발한 AI 모델 MiMo-v2.5의 API 가격을 무려 99% 인하한다고 발표했어요. 숫자만 보면 "오타 아니야?" 싶지만, 실제로 중국 AI 업계에서 이런 가격 인하는 이제 거의 분기마다 일어나는 일이에요. DeepSeek, Qwen(알리바바), GLM(Zhipu), Doubao(바이트댄스), 그리고 이번 샤오미까지 — 다들 미친 듯이 가격을 떨어뜨리고 있어요.

잠깐, 샤오미가 AI를? 그래요. 우리에겐 스마트폰과 가전제품 회사로 익숙하지만, 샤오미는 몇 년 전부터 자체 LLM(대형 언어 모델)을 개발해왔어요. MiMo 시리즈는 그 결과물이고, v2.5는 코딩과 추론 능력에서 GPT-4o-mini나 Claude Haiku 급 성능을 노린다고 알려져 있어요.

가격 전쟁이 벌어지는 진짜 이유

왜 이렇게 가격을 후려치는 걸까요? 표면적인 이유는 "개발자 확보"예요. AI 모델은 한 번 어떤 API에 익숙해지면 바꾸기가 귀찮거든요. 프롬프트 튜닝, 함수 호출 포맷, 에러 처리 패턴이 다 모델마다 미묘하게 달라서, 일단 자기 모델 생태계로 끌어들이면 락인이 강해져요. 그래서 초기엔 손해를 보더라도 사용자를 끌어모으는 게 장기 전략으로 합리적이에요.

하지만 더 깊은 이유는 추론 비용의 극적인 하락이에요. 이게 진짜 핵심인데요. 2년 전만 해도 GPT-3.5급 모델을 서빙하는 데 토큰당 상당한 비용이 들었어요. 그런데 그 사이에 세 가지가 동시에 일어났어요.

첫째, MoE(Mixture of Experts) 아키텍처의 보편화예요. 이게 뭐냐면, 모델 전체를 한 번에 다 쓰는 게 아니라 입력마다 "전문가" 일부만 활성화하는 방식이에요. 예를 들어 전체 파라미터가 200B여도 실제 추론 때는 20B만 동작하면 돼요. 그러면 계산량이 1/10로 줄죠. DeepSeek-V3나 Qwen2.5-Max 같은 모델들이 다 이 방식이에요.

둘째, 양자화(quantization)와 추측 디코딩(speculative decoding) 같은 추론 최적화 기술이 성숙했어요. FP16을 INT4나 INT8로 압축하면 메모리 사용량과 연산량이 2~4배 줄어요. 추측 디코딩은 작은 모델이 미리 답을 예측하고 큰 모델이 검증만 하는 방식인데, 평균 처리 속도가 2~3배 빨라져요.

셋째, 중국산 GPU와 자체 칩의 등장이에요. NVIDIA 의존도를 낮추기 위해 화웨이 Ascend, 캠브리콘, 그리고 자체 ASIC들이 추론 워크로드를 받아주기 시작했어요. 단가가 훨씬 싸요.

그래서 v2.5는 어떤 모델인가

MiMo-v2.5의 공개된 정보를 보면, 컨텍스트 윈도우는 128K 토큰, 함수 호출(function calling)과 JSON 모드를 지원하고, 코드 생성 벤치마크에서 동급 오픈 모델들과 경쟁할 수준이라고 해요. 가격은 입력 토큰 기준 1M당 거의 "공짜에 가까운" 수준으로 책정됐고, 출력 토큰도 매우 저렴해요. OpenAI나 Anthropic의 동급 모델 대비 수십분의 일 가격이에요.

다만 주의할 점이 있어요. 이런 가격으로 서빙이 지속 가능한지는 별개의 문제예요. 마진이 마이너스인 상태로 시장 점유율만 노리는 건 "승자의 저주"가 될 수 있고, 결국 누군가는 손익분기점을 맞춰야 해요. 그리고 무료에 가까운 API는 보통 속도 제한(rate limit), 컨텍스트 캐싱 한계, 프라이버시 이슈 등 숨은 비용이 따라와요.

글로벌 AI 업계의 흐름 속에서

OpenAI도 GPT-4o-mini를, Anthropic도 Claude Haiku를, Google도 Gemini Flash를 내놓으면서 "작고 빠르고 싼" 모델 카테고리가 본격화됐어요. 이게 의미하는 건 AI의 단가가 한 자리 수 분기마다 절반씩 떨어지는 시대가 됐다는 거예요. "인텔리전스가 전기처럼 흐른다"는 비유가 점점 현실이 되어가고 있어요.

동시에 "비싼 프론티어 모델"과 "저렴한 일반 모델"의 격차도 벌어지고 있어요. GPT-5나 Claude Opus 4급 모델은 여전히 비싸고, 이들은 복잡한 추론, 에이전트, 코딩 같은 고난도 작업에 집중해요. 반면 단순 분류, 요약, 챗봇 응답 같은 건 MiMo-v2.5 같은 모델로 충분하죠. '올바른 작업에 올바른 모델'을 선택하는 라우팅 전략이 점점 중요해지고 있어요.

한국 개발자에게 주는 시사점

한국에서 중국 AI API를 직접 쓰는 건 데이터 거버넌스나 정책 이슈 때문에 주의가 필요해요. 특히 개인정보나 민감 데이터가 들어가는 워크로드는 함부로 못 보내요. 다만 가격 동향 자체는 글로벌 가격에도 직접적인 압력을 줘요. OpenAI나 Anthropic이 가격을 내리는 시기와 중국발 가격 인하가 묘하게 겹치는 게 우연이 아니에요.

실무적으로는 두 가지를 권하고 싶어요. 첫째, 여러분의 LLM 비용 구조를 다시 점검해보세요. 1년 전 설계 그대로라면, 같은 작업을 1/5 가격에 할 수 있는 옵션이 이미 나와 있을 가능성이 높아요. 둘째, 모델 추상화 레이어를 두세요. LiteLLM, OpenRouter, 또는 자체 게이트웨이를 통해 모델을 쉽게 교체할 수 있게 해두면, 가격 전쟁의 혜택을 그때그때 받을 수 있어요.

마무리

MiMo-v2.5의 99% 인하는 단순한 마케팅이 아니라, AI 추론이 진짜 '인프라화'되는 시점을 알리는 신호탄이에요. 여러분의 서비스에서 LLM 비용이 어느 정도 비중을 차지하나요? 가격이 또 한 자릿수 떨어진다면, 지금 "비싸서 못 하는" 어떤 기능을 만들 수 있을까요?

🔗 출처: Hacker News

이 글도 읽어보세요