처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.06.12 31

허깅페이스 Open-R1: DeepSeek-R1의 '비공개 레시피'를 모두의 교과서로 만드는 프로젝트

Hacker News 원문 보기
허깅페이스 Open-R1: DeepSeek-R1의 '비공개 레시피'를 모두의 교과서로 만드는 프로젝트

DeepSeek-R1이 처음 공개됐을 때를 기억하시나요? 'AI가 답하기 전에 스스로 길게 생각하는' 추론 모델을, 그것도 OpenAI o1에 견줄 만한 성능으로, 중국의 한 회사가 가중치까지 통째로 공개해 버려서 업계가 발칵 뒤집혔었죠. 그런데 사실 그 공개에는 빈칸이 있었어요. 모델 가중치와 기술 보고서는 풀렸지만, 정작 '어떻게 만들었는지'에 해당하는 학습 데이터와 학습 코드는 공개되지 않았거든요. 허깅페이스의 Open-R1은 바로 그 빈칸을 커뮤니티의 힘으로 채우겠다는 프로젝트예요.

뭐가 빠져 있었고, 뭘 다시 만드나

R1이 특별했던 이유부터 짚고 갈게요. 보통 모델을 똑똑하게 만들려면 사람이 정성껏 만든 정답 데이터를 잔뜩 먹이는 SFT(지도 학습 미세조정)를 하는데요. DeepSeek은 R1-Zero라는 실험에서 이 과정을 건너뛰고 강화학습만으로, 그러니까 '정답을 맞히면 보상을 주는' 방식만으로 모델이 스스로 검산하고 다시 생각하는 능력을 키울 수 있다는 걸 보여줬어요. 문제는 이 레시피의 핵심 재료들, 즉 어떤 데이터를 어떤 설정으로 학습시켰는지가 베일에 싸여 있었다는 거예요.

Open-R1은 이걸 세 단계로 재현해요. 1단계는 R1이 생성한 긴 추론 과정을 받아 적은 데이터로 작은 모델을 가르치는 '증류'예요. 증류가 뭐냐면, 큰 모델이 푼 풀이 과정을 작은 모델이 보고 배우게 하는 일종의 과외 수업이라고 보면 돼요. 이 과정에서 나온 수학 추론 데이터셋 OpenR1-Math-220k 같은 결과물이 누구나 쓸 수 있게 공개됐어요. 2단계는 R1-Zero처럼 베이스 모델에서 순수 강화학습만으로 추론 능력을 끌어내는 것, 3단계는 DeepSeek의 다단계 학습 파이프라인 전체를 통째로 재현하는 거예요.

핵심 기법인 GRPO도 짚어볼게요. 기존 강화학습 방식인 PPO는 '이 답이 얼마나 좋은지' 평가하는 별도의 크리틱 모델을 함께 학습시켜야 해서 메모리를 어마어마하게 먹는데요. GRPO는 같은 문제에 대해 답을 여러 개 생성한 뒤 그룹 안에서 상대 평가를 하는 방식이라 크리틱 모델이 필요 없어요. 덕분에 같은 GPU로 훨씬 큰 모델을 강화학습시킬 수 있죠. Open-R1은 이걸 TRL 라이브러리 기반으로 구현해서 누구나 돌려볼 수 있게 했어요.

'오픈 가중치'와 '오픈소스'는 다르다

이 프로젝트가 던지는 질문은 분명해요. 가중치만 공개된 모델은 '결과물'이지 '지식'이 아니라는 거예요. 재현할 수 없는 과학은 반쪽짜리잖아요. AI2의 OLMo처럼 데이터부터 학습 코드까지 전부 공개하는 흐름이 있는데, Open-R1은 그 정신을 추론 모델에 적용한 셈이에요. 실제로 이 프로젝트에서 나온 레시피와 데이터셋은 이후 수많은 오픈 추론 모델들의 출발점이 되고 있고요.

한국 개발자에게 주는 시사점

실용적인 포인트가 많아요. 첫째, 거대 모델을 직접 학습시킬 형편이 안 되더라도, 증류 레시피를 쓰면 7B급 작은 모델에 특정 도메인의 추론 능력을 입힐 수 있어요. 사내 GPU 몇 장으로도 시도해 볼 수 있는 규모죠. 둘째, 수학과 코딩처럼 정답 검증이 자동화되는 분야는 강화학습 보상 설계가 쉬워서 먼저 발전했는데, 법률·금융·의료처럼 한국어 도메인 지식이 필요한 영역은 아직 빈 땅이에요. 검증 가능한 한국어 추론 데이터셋을 만드는 것 자체가 가치 있는 기여가 될 수 있어요. 셋째, GRPO 같은 기법은 이제 추론 모델 학습의 기본기가 됐으니, 직접 파인튜닝할 계획이 없더라도 동작 원리를 알아두면 모델을 고르고 평가할 때 큰 도움이 돼요.

정리하며

한 줄 요약: Open-R1은 'R1급 추론 모델을 만드는 법'을 블랙박스에서 꺼내 모두가 따라 할 수 있는 교과서로 만드는 프로젝트예요. 여러분이라면 이 레시피로 어떤 도메인의 추론 모델을 만들어 보고 싶으세요?


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.