3B 짜리 작은 모델이 추론에서 대형 모델을? 'VibeThinker'의 학습 비법

작은 모델이 '추론'에서 큰 모델을 이긴다고요?

AI 모델 이야기에서 요즘 가장 뜨거운 주제가 추론(reasoning) 이에요. 추론이 뭐냐면, 단순히 외운 걸 뱉는 게 아니라 수학 문제나 코딩 문제를 단계별로 차근차근 풀어내는 능력이에요. 사람이 풀이 과정을 적어가며 답을 찾듯이요. 그동안은 이게 "모델이 충분히 커야만 되는 능력"이라고 여겨졌거든요.

그런데 VibeThinker는 파라미터가 고작 3B(30억 개) 인 작은 모델인데, 추론 과제에서 훨씬 덩치 큰 모델급 성능을 낸다고 주장해요. 핵심은 모델을 키운 게 아니라 학습 방법을 새로 짠 것이라는 점이에요.

비법은 'SFT + GRPO' 조합이에요

조금 어려운 약어가 나오는데 천천히 풀어볼게요.

먼저 SFT(Supervised Fine-Tuning, 지도 미세조정) 예요. 이게 뭐냐면, 잘 정리된 '문제-모범풀이' 예시를 모델에게 잔뜩 보여주면서 "이런 식으로 답을 써라" 하고 흉내 내게 가르치는 단계예요. 모범 답안집을 보고 따라 쓰며 공부하는 학생을 떠올리면 돼요. 기본기를 다지는 과정이죠.

그다음이 GRPO(Group Relative Policy Optimization) 예요. 이건 강화학습의 한 방법인데, DeepSeek가 추론 모델에 써서 유명해졌어요. 작동 방식이 재밌어요. 같은 문제에 대해 모델이 답을 여러 개 만들게 한 다음, 그중 맞은 답과 틀린 답을 비교해서 "맞은 쪽으로 가는 습관"을 강화하는 거예요. 핵심은 정답·오답을 그룹 안에서 상대적으로 비교한다는 점인데, 덕분에 별도의 채점용 모델 없이도 효율적으로 학습할 수 있어요. 마치 같은 문제를 여러 방법으로 풀어본 뒤 "아, 이 접근이 통하는구나" 하고 스스로 깨우치는 학생 같은 거죠.

VibeThinker는 이 두 단계를 그냥 이어 붙인 게 아니라, 기본기(SFT)로 다양한 풀이의 '폭'을 넓혀두고, 강화학습(GRPO)으로 그중 옳은 길을 '날카롭게' 다듬는 식으로 역할을 나눠 설계했다는 게 포인트예요. 그래서 작은 모델인데도 어려운 문제에서 끈질기게 정답을 찾아내는 거예요.

업계 흐름에서 보면

이건 지금 AI 업계의 큰 흐름 두 가지가 만나는 지점이에요. 하나는 "추론 능력은 크기보다 학습법" 이라는 깨달음이에요. DeepSeek-R1이 강화학습만으로도 추론력이 확 오르는 걸 보여주면서 다들 이쪽을 파기 시작했거든요. 다른 하나는 소형 모델(SLM) 경쟁이에요. 무작정 큰 모델은 돌리는 비용이 너무 비싸니까, "작지만 특정 능력은 빠지지 않는" 모델을 만들려는 시도가 쏟아지고 있어요.

VibeThinker는 이 둘을 합쳐서 "3B 같은 작은 몸집으로도, 잘 가르치면 추론은 대형 모델 못지않다"는 가설을 실험한 사례예요. 물론 추론이라는 특정 영역 이야기지, 모든 면에서 큰 모델을 대체한다는 뜻은 아니니까 그 부분은 가려 들어야 해요.

한국 개발자에게는

실무에 주는 메시지가 분명해요. 사내에서 추론이 필요한 기능(예: 복잡한 데이터 분석, 코드 리뷰 보조, 수식 계산 검증)을 만들 때, 반드시 비싼 초대형 모델 API를 불러야만 하는 건 아니라는 거예요. 잘 설계된 학습법으로 다듬은 소형 모델이라면, 자체 GPU에 올려 돌리면서도 비용을 확 낮출 수 있는 길이 열리는 거죠. 데이터 보안 때문에 외부 API를 못 쓰는 금융·의료 쪽이라면 더 솔깃한 이야기고요.

그리고 엔지니어로서 SFT와 GRPO 같은 학습 파이프라인의 원리를 이해해두면, 단순히 모델을 '쓰는' 사람에서 '길들이는' 사람으로 한 단계 올라설 수 있어요. 오픈 모델을 내 업무 데이터로 미세조정하는 역량은 앞으로 점점 더 가치가 커질 거예요.