딥마인드의 Decoupled DiLoCo, 분산 AI 학습의 게임 체인저가 될까

거대 모델 학습이 직면한 골치 아픈 문제

요즘 GPT나 Gemini 같은 대규모 언어 모델을 학습시키는 일은 단일 데이터센터로는 점점 감당이 안 되는 규모가 되어가고 있어요. 모델이 커지면 GPU도 많이 필요하고, GPU가 많아지면 그걸 한 건물 안에 욱여넣기도 힘들어지죠. 전력, 냉각, 네트워크 모두 한계에 부딪히거든요. 그래서 자연스럽게 떠오르는 아이디어가 "여러 데이터센터에 나눠서 학습시키자"인데, 여기에 거대한 함정이 하나 있어요. 학습 중에는 GPU들이 그래디언트(gradient, 모델이 얼마나 틀렸는지를 알려주는 신호)를 서로 끊임없이 주고받아야 하거든요. 데이터센터 사이의 네트워크는 같은 랙 안의 GPU들끼리보다 수백 배 느리고, 통신 한 번에 학습이 멈춰버립니다.

구글 딥마인드가 이번에 공개한 Decoupled DiLoCo(디커플드 디로코)는 바로 이 문제에 정면으로 도전한 결과물이에요. 이름 그대로 "느슨하게 분산된 저통신 학습"의 진화 버전이라고 보면 됩니다.

DiLoCo가 뭐였는지부터 짚고 가요

Decoupled DiLoCo를 이해하려면 원래 DiLoCo가 뭐였는지부터 봐야 해요. DiLoCo는 "Distributed Low-Communication"의 줄임말인데요. 핵심 아이디어는 이래요. 기존 분산 학습은 매 스텝마다 모든 GPU가 그래디언트를 동기화해요. 그런데 DiLoCo는 각 워커(worker)가 수백 스텝 동안 자기 혼자 학습한 다음, 가끔씩만 다른 워커들과 동기화해요. 동기화 횟수가 줄어드니까 통신량이 100분의 1, 1000분의 1 수준으로 떨어집니다. 비유하자면, 매 문장마다 회의하던 팀이 하루에 한 번 스탠드업만 하는 식이에요.

그런데 DiLoCo도 단점이 있었어요. 동기화 순간에는 어쨌든 모든 워커가 멈추고 그래디언트를 합쳐야 하거든요. 한 워커가 늦으면 전체가 기다립니다. 그리고 동기화 자체도 큰 트래픽을 한 번에 일으키니까, 데이터센터 간 네트워크가 그 순간 포화되는 문제가 있었어요.

Decoupled DiLoCo의 새로운 점

이번 Decoupled DiLoCo가 풀어낸 핵심은 "동기화 단계와 학습 단계를 떼어놓는 것(decouple)"이에요. 좀 더 풀어서 말하면, 워커들이 동기화 통신을 하는 동안에도 학습을 멈추지 않고 계속 돌릴 수 있게 만든 거예요. 통신은 백그라운드에서 비동기로 진행되고, 그 사이에 GPU는 다음 스텝의 계산을 이어서 합니다. 그러니까 통신 지연이 전체 학습 시간을 잡아먹지 않아요.

또 하나의 중요한 변화는 워커가 죽거나 새로 들어와도 학습이 계속된다는 점이에요. 기존 분산 학습은 GPU 하나가 죽으면 보통 체크포인트로 되돌아가서 재시작해야 했어요. 수천 GPU 규모에서는 누군가 항상 죽고 있으니, 이 재시작 비용이 어마어마했죠. Decoupled DiLoCo는 죽은 워커가 빠져도 나머지가 학습을 이어가고, 새 워커가 들어오면 슥 합류시킬 수 있는 구조라고 합니다. 이걸 "resilient(탄력적)"라고 표현한 거예요.

구글이 공개한 결과에 따르면, 이 방식으로 학습한 모델이 기존 동기식 분산 학습 대비 손실(loss)이 비슷하거나 오히려 더 좋게 나오면서, 통신량은 훨씬 적었다고 해요. 즉, 성능을 포기하지 않고도 효율을 잡았다는 뜻이죠.

업계 흐름에서 어디쯤 위치할까

분산 학습의 통신 병목을 줄이려는 시도는 딥마인드만 하는 게 아니에요. PrimeIntellect나 Nous Research 같은 곳은 인터넷을 통해 분산된 GPU를 모아 학습하는 실험을 하고 있고, Federated Learning(연합 학습) 계열도 비슷한 문제를 다른 각도에서 풀고 있죠. 또한 통신 병목을 하드웨어 쪽에서 풀려는 시도도 있는데, NVIDIA의 NVLink, InfiniBand 같은 인터커넥트가 그쪽 흐름이에요.

Decoupled DiLoCo가 의미 있는 건, 소프트웨어 알고리즘만으로 데이터센터 간 학습을 실용 가능한 수준으로 끌어올렸다는 점이에요. 이게 일반화되면, 단일 거대 데이터센터에 GPU를 몰아넣지 않고도 여러 지역의 자원을 활용해서 모델을 학습시키는 길이 열려요. 친환경 에너지가 풍부한 지역, 야간에 전력이 남는 지역, 정치적으로 안정적인 지역 등을 조합해서 학습 인프라를 짤 수 있다는 거죠.

한국 개발자에게 주는 시사점

당장 개인이나 작은 팀이 데이터센터 두세 곳에 분산 학습을 돌릴 일은 흔치 않을 거예요. 하지만 이 흐름은 머지않아 PyTorch FSDP(Fully Sharded Data Parallel)나 Megatron-LM 같은 프레임워크에 비슷한 비동기/탄력적 학습 옵션이 들어오는 형태로 흘러올 가능성이 큽니다. 또 한국의 클라우드 사업자나 통신사가 "여러 지역 GPU를 묶어 학습 자원으로 제공"하는 서비스를 내놓는다면, 그 밑단에 이런 알고리즘이 깔리겠죠. ML 인프라 쪽에 관심이 있다면 DiLoCo 계열 논문을 한번 따라가 보는 게 도움이 될 거예요.

마무리

분산 AI 학습이 "거대 단일 클러스터" 시대에서 "느슨하게 묶인 글로벌 자원" 시대로 넘어가는 신호탄 같은 발표였어요. 여러분은 분산 학습을 직접 돌려본 경험이 있나요? 통신 병목 때문에 GPU를 더 늘려도 속도가 안 늘어나는 경험, 다들 한 번쯤은 해보셨을 텐데, 댓글로 사례 나눠봐요.

🔗 출처: Hacker News

이 글도 읽어보세요