Hacker News 2026.06.12 119

허깅페이스 Open-R1: DeepSeek-R1의 '비공개 레시피'를 모두의 교과서로 만드는 프로젝트

DeepSeek-R1이 처음 공개됐을 때를 기억하시나요? 'AI가 답하기 전에 스스로 길게 생각하는' 추론 모델을, 그것도 OpenAI o1에 견줄 만한 성능으로, 중국의 한 회사가 가중치까지 통째로 공개해 버려서 업계가 발칵 뒤집혔었죠. 그런데 사실 그 공개에는 빈칸이 있었어요. 모델 가중치와 기술 보고서는 풀렸지만, 정작 '어떻게 만들었는지'에 해당하는 학습 데이터와 학습 코드는 공개되지 않았거든요. 허깅페이스의 Open-R1은 바로 그 빈칸을 커뮤니티의 힘으로 채우겠다는 프로젝트예요.

뭐가 빠져 있었고, 뭘 다시 만드나

R1이 특별했던 이유부터 짚고 갈게요. 보통 모델을 똑똑하게 만들려면 사람이 정성껏 만든 정답 데이터를 잔뜩 먹이는 SFT(지도 학습 미세조정)를 하는데요. DeepSeek은 R1-Zero라는 실험에서 이 과정을 건너뛰고 강화학습만으로, 그러니까 '정답을 맞히면 보상을 주는' 방식만으로 모델이 스스로 검산하고 다시 생각하는 능력을 키울 수 있다는 걸 보여줬어요. 문제는 이 레시피의 핵심 재료들, 즉 어떤 데이터를 어떤 설정으로 학습시켰는지가 베일에 싸여 있었다는 거예요.

Open-R1은 이걸 세 단계로 재현해요. 1단계는 R1이 생성한 긴 추론 과정을 받아 적은 데이터로 작은 모델을 가르치는 '증류'예요. 증류가 뭐냐면, 큰 모델이 푼 풀이 과정을 작은 모델이 보고 배우게 하는 일종의 과외 수업이라고 보면 돼요. 이 과정에서 나온 수학 추론 데이터셋 OpenR1-Math-220k 같은 결과물이 누구나 쓸 수 있게 공개됐어요. 2단계는 R1-Zero처럼 베이스 모델에서 순수 강화학습만으로 추론 능력을 끌어내는 것, 3단계는 DeepSeek의 다단계 학습 파이프라인 전체를 통째로 재현하는 거예요.

핵심 기법인 GRPO도 짚어볼게요. 기존 강화학습 방식인 PPO는 '이 답이 얼마나 좋은지' 평가하는 별도의 크리틱 모델을 함께 학습시켜야 해서 메모리를 어마어마하게 먹는데요. GRPO는 같은 문제에 대해 답을 여러 개 생성한 뒤 그룹 안에서 상대 평가를 하는 방식이라 크리틱 모델이 필요 없어요. 덕분에 같은 GPU로 훨씬 큰 모델을 강화학습시킬 수 있죠. Open-R1은 이걸 TRL 라이브러리 기반으로 구현해서 누구나 돌려볼 수 있게 했어요.

'오픈 가중치'와 '오픈소스'는 다르다

이 프로젝트가 던지는 질문은 분명해요. 가중치만 공개된 모델은 '결과물'이지 '지식'이 아니라는 거예요. 재현할 수 없는 과학은 반쪽짜리잖아요. AI2의 OLMo처럼 데이터부터 학습 코드까지 전부 공개하는 흐름이 있는데, Open-R1은 그 정신을 추론 모델에 적용한 셈이에요. 실제로 이 프로젝트에서 나온 레시피와 데이터셋은 이후 수많은 오픈 추론 모델들의 출발점이 되고 있고요.

한국 개발자에게 주는 시사점

실용적인 포인트가 많아요. 첫째, 거대 모델을 직접 학습시킬 형편이 안 되더라도, 증류 레시피를 쓰면 7B급 작은 모델에 특정 도메인의 추론 능력을 입힐 수 있어요. 사내 GPU 몇 장으로도 시도해 볼 수 있는 규모죠. 둘째, 수학과 코딩처럼 정답 검증이 자동화되는 분야는 강화학습 보상 설계가 쉬워서 먼저 발전했는데, 법률·금융·의료처럼 한국어 도메인 지식이 필요한 영역은 아직 빈 땅이에요. 검증 가능한 한국어 추론 데이터셋을 만드는 것 자체가 가치 있는 기여가 될 수 있어요. 셋째, GRPO 같은 기법은 이제 추론 모델 학습의 기본기가 됐으니, 직접 파인튜닝할 계획이 없더라도 동작 원리를 알아두면 모델을 고르고 평가할 때 큰 도움이 돼요.