12만원짜리 미니PC를 묶어 대형 LLM 돌리기: AMD Strix Halo RDMA 클러스터

AMD Strix Halo(Ryzen AI Max+)는 최대 128GB 통합 메모리를 가진 APU로, GPU 없이도 로컬에서 LLM을 돌리기 좋은 가성비 머신으로 주목받고 있습니다. 하지만 한 대만으로는 70B급 이상 모델이 버겁다는 한계가 있죠. 이 가이드는 여러 대의 Strix Halo 미니PC를 RDMA(원격 직접 메모리 접근) 네트워크로 묶어 vLLM 분산 추론을 구성하는 방법을 다룹니다. 핵심 인사이트는 RDMA가 CPU를 우회해 노드 간 데이터를 저지연·고대역폭으로 전송한다는 점입니다. 일반 TCP/IP는 분산 추론에서 통신 병목이 심한데, RoCE 기반 RDMA로 텐서·파이프라인 병렬화의 동기화 오버헤드를 크게 줄일 수 있습니다. 즉 비싼 데이터센터 GPU 없이도, 저렴한 통합메모리 APU 여러 대로 메모리 풀을 확장해 더 큰 모델을 서빙하는 길이 열립니다. 다만 RDMA NIC 설정, 드라이버, 네트워크 토폴로지 구성이 까다로워 셋업 난이도는 높은 편이니, 홈랩·소규모 추론 인프라를 고민하는 엔지니어에게 좋은 참고 자료입니다.

이 글도 읽어보세요

Hacker News 글자 하나 'j'가 저녁을 통째로 날렸다 — 한 글자 버그가 무서운 이유