학습률을 일부러 확 키운다고? '캐터펄트' 현상으로 더 똑똑한 신경망 만들기

손실이 갑자기 치솟았는데 결과가 더 좋다고?

신경망을 학습시킬 때 가장 신경 쓰는 하이퍼파라미터 하나가 학습률(learning rate)이에요. 이게 뭐냐면, 모델이 오답을 보고 "그럼 가중치를 이만큼 고쳐볼게" 할 때 그 '보폭'의 크기예요. 너무 작으면 학습이 한없이 느리고, 너무 크면 발산해서 모델이 망가진다고들 배우죠. 그래서 보통은 '안전하게' 작은 값으로 시작합니다.

그런데 gwern이 정리한 이 글은 좀 반직관적인 이야기를 합니다. 학습률을 일부러 크게 줘서 학습 초반에 손실(loss)이 확 튀어 오르게 만들면, 오히려 최종적으로 더 잘 일반화되는(generalize), 어떤 면에서 더 '사람 같은' 신경망을 얻을 수 있다는 거예요. 이 현상을 캐터펄트(catapult, 투석기) 효과라고 불러요.

캐터펄트 메커니즘이란

캐터펄트 효과는 2020년 무렵 연구(Lewkowycz 등)에서 정리된 현상이에요. 학습률을 충분히 크게 주면, 학습 곡선이 곧장 내려가지 않고 처음에 손실이 한 번 크게 솟구쳤다가 다시 떨어집니다. 마치 투석기로 돌을 멀리 날렸다가 착지시키는 모습 같다고 해서 붙은 이름이에요.

왜 이게 좋을까요? 손실 지형(loss landscape)을 울퉁불퉁한 산맥이라고 상상해보세요. 학습이란 이 산맥에서 가장 낮은 골짜기를 찾아가는 일이에요. 그런데 골짜기에도 종류가 있어요. 좁고 가파른 골짜기(sharp minima)와 넓고 평평한 골짜기(flat minima)가 있죠. 연구자들은 오래전부터 평평한 골짜기에 안착한 모델이 새로운 데이터에도 더 잘 적응한다고(즉 일반화가 잘 된다고) 봐왔어요. 좁은 골짜기는 데이터가 조금만 달라져도 손실이 확 튀거든요.

학습률이 작으면 모델은 처음 발견한 가까운 좁은 골짜기에 그냥 주저앉기 쉬워요. 반면 학습률이 크면, 좁은 골짜기는 보폭이 커서 아예 머물지를 못하고 튕겨 나가요(그래서 손실이 솟구침). 그러다 결국 보폭이 커도 안정적으로 머물 수 있는 넓고 평평한 골짜기에 안착하게 되는 거죠. 큰 보폭이 일종의 필터 역할을 해서, 더 좋은 성질의 골짜기를 고르게 만드는 셈이에요.

'사람 같다'는 건 무슨 뜻일까

글의 제목에 'Human-Like'가 붙은 게 흥미로운데요. 평평한 골짜기에 안착한 모델은 디테일을 통째로 암기(overfitting)하기보다 본질적인 패턴을 잡아내는 경향이 있어요. 자잘한 노이즈에 휘둘리지 않고 큰 규칙을 잡는 거죠. 사람이 학습할 때도 모든 예시를 글자 그대로 외우기보다 핵심 규칙을 파악하잖아요. 그런 의미에서 더 '사람 같은' 학습이라고 표현한 거예요. 큰 학습률이 일종의 정규화(regularization), 즉 과적합을 막아주는 효과를 내는 거고요.

업계 흐름 속에서

사실 실무자들은 이걸 이론으로 정리되기 전부터 경험적으로 쓰고 있었어요. 대표적인 게 워밍업(warmup)과 학습률 스케줄링이에요. 트랜스포머 학습에서 거의 표준이 된 '학습률을 처음엔 올렸다가 서서히 내리는' 전략이나, one-cycle policy, cyclical learning rate 같은 기법들이 다 이 맥락에 닿아 있어요. SGD에 내재된 노이즈가 평평한 최소값을 선호한다는 'SGD의 암묵적 정규화' 논의와도 연결되고요. 캐터펄트 연구는 "왜 큰 학습률이 통하는가"에 대한 이론적 뒷받침을 준 셈이에요.

한국 개발자에게 주는 시사점

모델을 직접 학습시키는 분들께는 아주 실용적인 이야기예요. 학습률을 무조건 보수적으로 작게만 잡지 말고, 감당 가능한 선에서 크게 줘보는 실험을 해볼 가치가 있다는 거죠. 물론 너무 크면 진짜로 발산하니까, learning rate finder 같은 도구로 '캐터펄트는 일어나되 발산은 안 하는' 구간을 찾는 게 핵심이에요.

파인튜닝을 주로 하는 분들에게도 의미가 있어요. 큰 모델을 미세조정할 때 학습률 설정이 결과 품질을 좌우하는데, 이 원리를 이해하면 "왜 워밍업이 필요한지", "왜 스케줄러를 쓰는지"를 그냥 관행이 아니라 이유를 알고 쓸 수 있게 되거든요. 하이퍼파라미터를 감으로 찍는 사람과 메커니즘을 이해하고 조절하는 사람의 차이는 시간이 갈수록 벌어집니다.

마무리

한 줄 정리: 학습률을 과감히 키워 손실을 한 번 튀게 만들면, 더 넓고 안정적인 골짜기에 안착해 일반화가 좋아질 수 있다. 여러분은 학습률을 정할 때 안전하게 작게 가는 편인가요, 아니면 공격적으로 키워보는 편인가요? '발산 직전의 가장 큰 학습률'을 찾는 그 아슬아슬한 줄타기, 한번 직접 실험해보면 신경망에 대한 감이 확 달라질지도 몰라요.

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 녹음에서 "음...", "어..."만 지우는 게 왜 이렇게 어려울까요 — 추임새 제거 도구 만들기의 함정들