AMD Strix Halo 미니PC 여러 대를 RDMA로 묶어 LLM 분산 추론하기

책상 위에 LLM 클러스터 만들기

요즘 거대 언어 모델(LLM)을 클라우드가 아니라 내 책상 위에서 직접 돌려보고 싶어하는 분들이 많아졌어요. 그런데 막상 해보면 벽에 부딪히죠. 모델이 너무 크거든요. 700억 파라미터(70B)짜리 모델만 해도 메모리가 수십 GB씩 필요한데, 웬만한 그래픽카드 한 장으로는 감당이 안 돼요.

여기서 주인공이 등장합니다. AMD의 Strix Halo라는 칩인데요, 정식 제품명으로는 Ryzen AI Max+ 시리즈예요. 이게 뭐냐면 CPU랑 GPU가 한 칩 안에 들어있는 APU인데, 특이하게도 메모리를 둘이 같이 쓰는 통합 메모리(unified memory) 구조예요. 그래서 최대 128GB까지 되는 메모리를 GPU가 거의 그대로 가져다 쓸 수 있어요. 비싼 데이터센터용 GPU를 사지 않아도 큰 모델을 한 대에 통째로 올릴 수 있다는 뜻이죠.

RDMA로 여러 대를 한 몸처럼

그런데 한 대로도 부족할 만큼 큰 모델을 돌리거나 더 빠른 처리량이 필요하면 어떻게 할까요? 여러 대를 묶어야겠죠. 이번에 공개된 가이드는 바로 이 Strix Halo 머신 여러 대를 RDMA로 연결해서 하나의 추론 클러스터로 만드는 방법을 다뤄요.

RDMA(Remote Direct Memory Access)가 뭐냐면, 한 컴퓨터가 다른 컴퓨터의 메모리를 CPU를 거치지 않고 직접 읽고 쓰는 기술이에요. 보통 네트워크로 데이터를 주고받으면 운영체제 커널을 거치면서 복사가 여러 번 일어나고 CPU가 바빠지는데, RDMA는 그 과정을 건너뛰어요. 그래서 지연시간(latency)이 극도로 낮고 대역폭을 거의 그대로 쓸 수 있어요. 우리가 흔히 들어본 인피니밴드(InfiniBand)나 RoCE(RDMA over Converged Ethernet)가 이걸 구현한 기술이고, 대형 AI 학습 클러스터들이 다 이걸 써요.

가이드는 vLLM이라는 추론 엔진 위에서 동작해요. vLLM은 여러 GPU(여러 머신)에 모델을 쪼개서 올리는 텐서 병렬(tensor parallelism)과 파이프라인 병렬을 지원하는데, 이때 머신 사이에 활성화 값(중간 계산 결과)을 어마어마하게 주고받아야 하거든요. 이 통신이 느리면 GPU가 아무리 빨라도 서로 기다리느라 놀게 돼요. RDMA가 바로 이 병목을 풀어주는 거죠.

업계 흐름에서 보면

원래 이런 RDMA 클러스터는 엔비디아 DGX 같은 수천만 원에서 수억 원짜리 장비의 영역이었어요. 엔비디아는 NVLink와 InfiniBand로 묶인 고가 시스템으로 이 시장을 사실상 독점해왔고요. 그런데 Strix Halo는 미니PC 수준의 가격에 통합 메모리로 큰 모델을 올릴 수 있고, 거기에 RDMA까지 얹으니 저렴한 자작 AI 클러스터라는 새로운 선택지가 생긴 셈이에요. 맥 스튜디오 여러 대를 썬더볼트로 묶어 LLM을 돌리는 시도와도 결이 비슷한데, AMD 쪽은 ROCm 생태계와 표준 RDMA 네트워킹을 쓴다는 점이 달라요.

한국 개발자에게는

개인이나 소규모 팀이 데이터를 외부 클라우드에 올리지 않고 자체 LLM 인프라를 갖추고 싶을 때 현실적인 후보가 됩니다. 특히 보안이 중요한 금융·의료·공공 쪽이라면 사내망 안에서 도는 추론 서버를 비교적 저렴하게 구성해볼 수 있어요. 다만 ROCm(AMD의 GPU 컴퓨팅 플랫폼)은 아직 CUDA만큼 성숙하진 않아서 드라이버나 네트워크 설정에서 삽질이 좀 필요해요. 그래도 통합 메모리와 RDMA를 직접 만져보는 경험 자체가, 앞으로 온프레미스 AI를 다룰 때 큰 자산이 될 거예요.

한줄 정리: 비싼 데이터센터 GPU 없이도, 통합 메모리 미니PC를 RDMA로 묶어 큰 모델을 분산 추론하는 시대가 열리고 있어요. 여러분이라면 클라우드 API와 이런 자작 클러스터 중 어느 쪽을 택하시겠어요?

🔗 출처: Hacker News

이 글도 읽어보세요