강화학습과 확산 모델을 잇는 수학, Hamilton-Jacobi-Bellman 방정식 쉽게 이해하기

강화학습이랑 이미지 생성이 같은 수학이라고?

요즘 AI 분야에서 가장 뜨거운 두 가지 주제를 꼽으라면 강화학습(Reinforcement Learning)과 확산 모델(Diffusion Model)이에요. 강화학습은 로봇 제어나 게임 AI에서 빛나고, 확산 모델은 Stable Diffusion이나 DALL-E 같은 이미지 생성의 핵심이죠. 그런데 이 두 분야가 사실 같은 수학적 뿌리를 공유하고 있다는 걸 아시나요? 그 연결고리가 바로 Hamilton-Jacobi-Bellman(HJB) 방정식이에요.

한 기술 블로그에서 이 HJB 방정식을 중심으로 연속 시간 강화학습과 확산 모델의 관계를 아주 깔끔하게 정리했는데요, 수학에 거부감이 있는 분들도 핵심 아이디어만큼은 이해할 수 있도록 풀어서 설명해볼게요.

먼저, 강화학습을 연속 시간으로 바꾸면 무슨 일이 생기나

우리가 흔히 아는 강화학습은 이산 시간(discrete time) 기반이에요. 에이전트가 한 스텝 행동하고, 보상 받고, 다시 행동하고... 이런 식으로 띄엄띄엄 진행되죠. 게임으로 치면 턴제 게임 같은 거예요.

그런데 현실 세계의 문제들, 예를 들어 로봇 팔을 부드럽게 움직이거나 자율주행차가 연속적으로 핸들을 꺾는 상황은 연속 시간(continuous time)이에요. 매 순간순간 의사결정이 이루어지는 거죠. 이걸 수학적으로 다루려면 이산적인 합(Σ) 대신 적분(∫)을, 차분 방정식 대신 미분 방정식을 써야 해요.

이산 시간 강화학습에서 쓰이는 유명한 벨만 방정식(Bellman Equation)을 연속 시간으로 확장하면, 그게 바로 HJB 방정식이에요. 이게 뭐냐면, "지금 이 상태에서 앞으로 받을 수 있는 최대 보상의 총합"을 나타내는 가치 함수(Value Function)가 만족해야 하는 미분 방정식이에요. 쉽게 비유하면, 벨만 방정식이 "다음 칸에서 최선을 고르면 돼"라는 점화식이라면, HJB 방정식은 "매 순간 최선의 방향으로 흘러가야 해"라는 연속적인 버전인 거예요.

여기서 확산 모델이 왜 나오냐면

확산 모델의 핵심 아이디어를 간단히 짚어볼게요. 확산 모델은 깨끗한 이미지에 노이즈를 조금씩 추가해서 완전한 노이즈로 만드는 과정(Forward Process)과, 그 노이즈에서 다시 깨끗한 이미지를 복원하는 과정(Reverse Process)으로 이루어져 있어요. 후자가 바로 이미지 생성이죠.

그런데 이 과정을 수학적으로 보면, 데이터가 시간에 따라 변하는 확률 미분 방정식(Stochastic Differential Equation, SDE)으로 표현돼요. 노이즈가 추가되는 과정은 앞으로 흐르는 SDE이고, 이미지를 복원하는 과정은 시간을 거꾸로 돌리는 역방향 SDE인 거예요.

자, 여기서 연결이 생겨요. 역방향 SDE에서 "어떤 방향으로 노이즈를 제거해야 할까"를 결정하는 문제는 사실 연속 시간에서 최적의 행동을 선택하는 문제와 같은 구조를 갖고 있어요. 즉, 확산 모델의 학습 과정을 연속 시간 강화학습 문제로 재해석할 수 있고, 그 최적 조건이 바로 HJB 방정식으로 나타나는 거예요.

이건 단순한 수학적 유사성이 아니에요. 실제로 최근 연구들에서는 강화학습 기법을 활용해서 확산 모델의 생성 품질을 높이거나, 반대로 확산 모델의 학습 방법론을 강화학습에 적용하는 시도들이 활발하게 이루어지고 있거든요.

업계에서는 이 연결을 어떻게 활용하고 있나

이 분야의 대표적인 연구로는 RLHF(Reinforcement Learning from Human Feedback)가 있어요. ChatGPT를 만들 때도 사용된 기법인데, 사람의 피드백을 보상 신호로 삼아 모델을 미세조정하는 거죠. 최근에는 이미지 생성 모델에도 RLHF를 적용하는 연구가 나오고 있는데, 확산 모델의 역방향 과정을 강화학습의 정책(policy)으로 보고 HJB 기반의 최적화를 수행하는 방식이에요.

또 다른 흥름으로는 Flow Matching이 있어요. 이건 확산 모델의 학습을 좀 더 효율적으로 만드는 기법인데, 데이터 분포에서 노이즈 분포로 가는 "흐름(flow)"을 직접 학습하는 거예요. 이 과정에서도 최적 수송(Optimal Transport) 이론과 HJB 방정식이 핵심 역할을 해요.

OpenAI, Google DeepMind, Meta 같은 회사들이 이 교차점에서 활발하게 연구를 진행하고 있고, 특히 제어 이론 + 생성 모델의 융합은 앞으로 로봇공학이나 자율주행 분야에서도 큰 영향을 줄 것으로 보여요.

한국 개발자에게 주는 시사점

솔직히 HJB 방정식을 당장 프로덕션 코드에서 직접 구현할 일은 드물어요. 하지만 이 연결 관계를 이해하면 몇 가지 실질적인 이점이 있어요.

첫째, 확산 모델을 파인튜닝할 때 강화학습 기법을 적용하는 최신 논문들을 이해할 수 있어요. 예를 들어 DDPO(Denoising Diffusion Policy Optimization) 같은 기법은 이 연결을 직접 활용한 것인데, 이미지 생성 품질을 특정 기준에 맞춰 최적화할 때 유용해요.

둘째, AI 연구의 큰 그림을 보는 눈이 생겨요. 강화학습, 생성 모델, 최적 제어가 하나의 수학적 프레임워크로 연결된다는 건, 한 분야에서의 발전이 다른 분야에도 파급될 수 있다는 뜻이거든요. 커리어 방향을 정할 때 참고할 만한 통찰이죠.

셋째, 관련 공부를 시작하고 싶다면 확률 미분 방정식(SDE) 기초부터 보는 걸 추천해요. 이게 확산 모델과 연속 시간 강화학습 모두의 기반이 되는 도구거든요.

한줄 정리

강화학습과 확산 모델은 "연속 시간에서 최적의 경로를 찾는다"는 같은 수학적 뼈대를 공유하고 있고, 그 뼈대가 HJB 방정식이에요. AI의 여러 분야를 공부하다 보면 결국 같은 수학으로 수렴하는 순간이 오는데, 여러분은 이런 분야 간 연결을 발견했을 때 어떻게 학습 로드맵을 조정하시나요?

🔗 출처: Hacker News

이 글도 읽어보세요