12만원짜리 미니PC를 묶어 대형 LLM 돌리기: AMD Strix Halo RDMA 클러스터

AMD Strix Halo(Ryzen AI Max+)는 최대 128GB 통합 메모리를 가진 APU로, GPU 없이도 로컬에서 LLM을 돌리기 좋은 가성비 머신으로 주목받고 있습니다. 하지만 한 대만으로는 70B급 이상 모델이 버겁다는 한계가 있죠. 이 가이드는 여러 대의 Strix Halo 미니PC를 RDMA(원격 직접 메모리 접근) 네트워크로 묶어 vLLM 분산 추론을 구성하는 방법을 다룹니다. 핵심 인사이트는 RDMA가 CPU를 우회해 노드 간 데이터를 저지연·고대역폭으로 전송한다는 점입니다. 일반 TCP/IP는 분산 추론에서 통신 병목이 심한데, RoCE 기반 RDMA로 텐서·파이프라인 병렬화의 동기화 오버헤드를 크게 줄일 수 있습니다. 즉 비싼 데이터센터 GPU 없이도, 저렴한 통합메모리 APU 여러 대로 메모리 풀을 확장해 더 큰 모델을 서빙하는 길이 열립니다. 다만 RDMA NIC 설정, 드라이버, 네트워크 토폴로지 구성이 까다로워 셋업 난이도는 높은 편이니, 홈랩·소규모 추론 인프라를 고민하는 엔지니어에게 좋은 참고 자료입니다.

12만원짜리 미니PC를 묶어 대형 LLM 돌리기: AMD Strix Halo RDMA 클러스터

이어서 읽을 만한, 세 편.

로그인

추가 정보 입력

회원가입

수강 신청

비밀번호 찾기