2026년 AI 지형도, 그래프로 읽는 5가지 변화

매년 4월의 연례행사, AI 인덱스 리포트

미국 스탠퍼드 대학의 HAI(Human-Centered AI 연구소)가 매년 봄 발표하는 AI Index Report가 올해도 공개됐어요. 이 리포트는 전 세계 AI 연구, 산업, 정책을 수치로 정리하는 몇 안 되는 공신력 있는 자료인데요. IEEE Spectrum이 그중 특히 인상적인 그래프들을 뽑아서 해설을 붙였어요. 올해 리포트가 특히 주목받는 이유는, 2023~2024년의 폭발적인 성장세가 2025년을 지나면서 "정점을 지난 것인지, 아니면 새로운 국면에 들어선 것인지" 판단이 갈리고 있기 때문이에요.

훈련 비용은 천정부지, 그런데 추론 비용은 폭락

첫 번째 인상적인 수치는 프론티어 모델 훈련 비용이에요. GPT-4 수준 모델 한 번 학습시키는 데 드는 돈이 수천만 달러에서 이제는 1억 달러를 훌쩍 넘어갔어요. Gemini Ultra, GPT-5급 모델은 수억 달러 규모로 추정되거든요. 이게 뭐냐면, 예전에 스타트업이 "우리도 파운데이션 모델 만들어볼래" 하던 시대는 거의 끝났다는 뜻이에요. 이제 프론티어 모델은 구글, OpenAI, Anthropic, xAI, Meta, 중국의 DeepSeek·Qwen 정도만 살아남는 게임이 됐어요.

그런데 재밌는 건 추론 비용(inference cost)은 반대로 곤두박질치고 있다는 거예요. 2022년 GPT-3.5 수준의 성능을 얻는 데 드는 API 비용이 지금은 약 1/280 수준으로 떨어졌어요. 쉽게 말하면, 3년 전에 한 번 물어보는 데 100원 들던 게 지금은 40전 수준이라는 거죠. 이게 한국 개발자 입장에서 중요한 포인트예요. 모델을 직접 만들긴 어려워도, 활용하는 비용 장벽은 계속 내려가고 있거든요.

벤치마크 포화, 이제는 무엇으로 실력을 잴까

두 번째 그래프는 벤치마크 포화 현상이에요. MMLU, HumanEval, GSM8K 같은 전통 벤치마크들은 이미 상위 모델들이 95% 이상을 맞추고 있어요. 사람보다 잘 풀어요. 그래서 이제 업계는 더 어려운 테스트를 만들고 있는데요, HLE(Humanity's Last Exam), ARC-AGI, SWE-Bench Verified 같은 것들이 새로운 기준이 되고 있어요. 특히 에이전트 벤치마크가 뜨고 있어요. 단순히 지식을 묻는 게 아니라 "툴을 사용해서 실제 업무를 끝까지 해내는가"를 평가해요.

미국과 중국, 좁혀지는 격차

세 번째는 미·중 모델 격차예요. 2023년만 해도 미국 최상위 모델과 중국 최상위 모델의 벤치마크 점수 차이가 꽤 컸는데, 2025년 기준으로는 거의 붙었어요. DeepSeek-V3, Qwen3 같은 모델이 오픈웨이트로 공개되면서 누구나 쓸 수 있는 상태고요. 반면 미국의 최상위 모델들은 대부분 API로만 제공되는 폐쇄형이라 실제 쓸 수 있는 "오픈 모델" 시장에선 중국이 오히려 앞서 있다는 평가도 나와요.

전력, 환경, 그리고 데이터의 벽

네 번째 수치는 좀 무거워요. 글로벌 데이터센터 전력 소비량이 2030년까지 두 배 이상으로 뛸 거라는 전망이에요. 이미 AI 훈련용 GPU 클러스터 하나가 수백 MW급 전력을 빨아들이는 수준이거든요. 마이크로소프트가 폐쇄된 원자력 발전소를 재가동하기로 한 뉴스, OpenAI의 스타게이트 프로젝트가 자체 발전소를 짓는 얘기가 전부 여기서 나온 거예요.

또 하나의 벽은 데이터 고갈이에요. 인터넷에 존재하는 고품질 텍스트 데이터는 이미 대부분 소진됐고, 2028년쯤이면 "새 데이터가 없어서" 모델이 더 커지기 힘든 상황이 올 거라는 예측이 있어요. 그래서 합성 데이터(synthetic data), 강화학습(RL), 추론 시간 계산(test-time compute) 같은 쪽으로 연구 방향이 옮겨가고 있고요.

한국 개발자에게 주는 힌트

이 그래프들이 우리에게 말해주는 건 분명해요. 직접 파운데이션 모델을 만드는 경쟁엔 뛰어들 필요가 없어요. 대신 추론 비용이 싸지는 흐름을 타서, 도메인 특화 에이전트·RAG 시스템·온디바이스 경량 모델처럼 "응용" 쪽에 기회가 많아지고 있어요. 네이버 HyperCLOVA X, 카카오 Kanana, LG AI Research의 EXAONE이 한국어 최적화로 자리를 잡고 있으니, 이걸 기반으로 서비스를 만드는 게 현실적인 진입 전략이에요. 또 에이전트 벤치마크가 주류가 되는 흐름은 곧 "툴 호출, 함수 실행, 장기 메모리"를 잘 설계하는 엔지니어의 몸값이 오른다는 뜻이기도 하고요.