트랜스포머 레이어 딱 하나만 학습해도 전체 RL 훈련과 같은 성능이 나온다고요?

요즘 LLM 연구에서 가장 뜨거운 주제 중 하나가 강화학습(RL) 기반 후처리 학습인데요, 이 비싸고 무거운 과정에 근본적인 질문을 던지는 논문이 나왔어요. 제목부터 도발적이에요. 'Is One Layer Enough?(레이어 하나면 충분한가?)' 결론부터 말하면, 트랜스포머 모델의 수십 개 레이어 중 단 하나만 학습 가능하게 열어두고 나머지를 전부 얼려도, 전체 파라미터를 학습시킨 것과 맞먹는 성능이 나온다는 거예요.

잠깐, RL 학습이 뭐였죠?

배경부터 짚고 갈게요. 요즘 LLM은 크게 두 단계로 만들어져요. 먼저 인터넷 규모의 텍스트로 '다음 단어 맞히기'를 시키는 사전학습(pre-training)으로 지식과 언어 능력을 쌓고, 그다음 사람의 선호에 맞추거나(RLHF), 수학이나 코딩처럼 정답을 기계적으로 검증할 수 있는 문제를 풀게 하면서 보상을 주는 강화학습(RLVR)으로 다듬어요. DeepSeek-R1 이후로 추론 능력을 끌어올리는 핵심 레시피로 자리 잡은 게 바로 이 RL 단계인데요, 문제는 비용이에요. 전체 파라미터를 학습시키려면 모델 가중치에 더해 그래디언트와 옵티마이저 상태까지 메모리에 들고 있어야 해서, 단순히 모델을 돌릴 때보다 몇 배의 GPU 메모리가 필요하거든요. 여기에 RL 특유의 롤아웃(모델이 직접 답을 생성해 보는 과정)까지 겹치면 학습 인프라가 정말 무거워져요.

레이어 하나로 어떻게 같은 성능이 나올까요

이 논문은 아주 단순한 실험을 해요. RL 학습을 할 때 특정 레이어 하나만 업데이트를 허용하고 나머지는 모두 동결(freeze)하는 거예요. 그런데 놀랍게도 보상 곡선도, 벤치마크 점수도 전체 파라미터 학습과 거의 구분이 안 될 만큼 따라온다는 결과가 나왔어요. 상식적으로는 '학습할 수 있는 파라미터가 수십 분의 일로 줄었으니 성능도 깎이겠지'라고 예상하게 되잖아요. 그 예상이 빗나간 거죠.

이 결과가 시사하는 바가 꽤 깊어요. RL이 모델에 가하는 변화가 사실은 아주 작고 국소적이라는 뜻이거든요. 다시 말해 RL은 모델에 새로운 지식을 집어넣는 과정이라기보다, 사전학습 때 이미 갖춰진 능력 중에서 원하는 행동을 '끌어내고 강화하는' 과정에 가깝다는 해석에 힘이 실리는 거예요. 실제로 최근 연구들에서 RL 파인튜닝 후 가중치 변화가 매우 희소하다(전체 파라미터의 극히 일부만 의미 있게 변한다)는 관찰이 잇따라 보고돼 왔는데, 이 논문은 거기서 한 발 더 나가서 '그럼 아예 한 레이어만 열어두면 어떻게 되나'를 실증한 셈이에요.

LoRA와는 뭐가 다른가요

파라미터 일부만 학습한다는 얘기에 LoRA를 떠올리셨다면 정확해요. LoRA가 뭐냐면, 원본 가중치는 그대로 두고 옆에 작은 저차원 행렬(어댑터)을 붙여서 그것만 학습하는 기법이에요. 이미 RLHF에서도 LoRA로 충분하다는 보고가 여럿 있었죠. 이번 논문의 접근은 어댑터를 새로 붙이는 게 아니라 기존 레이어 하나를 통째로 학습한다는 점이 다른데, 방향은 같아요. 'RL 후처리 학습은 생각보다 훨씬 적은 자유도로 충분하다'는 것. 두 갈래의 연구가 같은 결론을 향해 서로를 보강해 주는 그림이에요.

우리한테는 뭐가 좋은데요

실용적인 의미가 커요. 학습 대상 파라미터가 줄면 그래디언트와 옵티마이저 메모리가 그만큼 줄어서, 지금까지 대형 클러스터가 필요했던 RL 실험을 훨씬 작은 GPU 환경에서 돌려볼 수 있게 되거든요. 오픈소스 모델을 받아서 자기 도메인의 검증 가능한 태스크(코드 테스트 통과, 수식 검증 같은 것)로 RL을 걸어보는 실험의 문턱이 확 낮아지는 거예요. 국내에서도 작은 모델을 특정 업무에 맞게 튜닝하려는 팀이 많은데, 시도해 볼 가치가 있는 레시피죠. 물론 주의할 점도 있어요. 어떤 레이어를 고르느냐에 따라 결과가 달라질 수 있고, 모델 크기나 태스크가 바뀌어도 같은 결론이 유지되는지는 후속 검증이 필요해요. 논문 한 편의 결과를 곧바로 일반화하기보다는, 내 환경에서 작게 재현해 보고 판단하는 게 좋겠어요.

한줄 정리: 트랜스포머 레이어 딱 하나만 학습해도 전체 파라미터 RL 학습과 대등한 성능이 나온다는 연구 결과로, RL 후처리 학습의 비용 상식이 다시 쓰일지도 몰라요.

여러분 생각은 어떠세요? RL이 새 능력을 만드는 게 아니라 이미 있는 능력을 꺼내는 과정에 가깝다면, 진짜 새로운 능력은 어디에서 와야 하는 걸까요?

🔗 출처: Hacker News

트랜스포머 레이어 딱 하나만 학습해도 전체 RL 훈련과 같은 성능이 나온다고요?

잠깐, RL 학습이 뭐였죠?

레이어 하나로 어떻게 같은 성능이 나올까요

LoRA와는 뭐가 다른가요

우리한테는 뭐가 좋은데요

이어서 읽을 만한, 세 편.

로그인

추가 정보 입력

회원가입

수강 신청

비밀번호 찾기