32GB 맥에서 1조 파라미터 모델을 돌린다고? — NVMe 텐서 스트리밍의 마법

무슨 일이 있었나요?

AI 모델을 로컬에서 돌려보신 적 있으시죠? 요즘 Llama나 Mistral 같은 오픈소스 모델을 내 컴퓨터에서 실행하는 게 꽤 흔해졌는데요, 여기엔 항상 큰 벽이 하나 있었어요. 바로 메모리예요. 모델이 클수록 더 많은 메모리(RAM이나 GPU VRAM)가 필요한데, 1조(1 trillion) 파라미터급 모델은 보통 수 테라바이트의 메모리가 필요해서 일반 소비자 하드웨어에서는 꿈도 못 꿨거든요.

그런데 Hypura라는 새로운 오픈소스 프로젝트가 등장했어요. 이 프로젝트의 핵심 아이디어는 모델 전체를 메모리에 올리는 대신, NVMe SSD에서 필요한 부분만 실시간으로 스트리밍하는 거예요. 그래서 메모리가 32GB밖에 없는 Mac에서도 1조 파라미터 모델을 실행할 수 있다고 해요.

어떻게 가능한 건가요?

먼저 기본 개념부터 짚어볼게요. LLM의 파라미터는 결국 숫자들의 거대한 배열(텐서, tensor)이에요. 모델이 추론(inference, 새로운 텍스트를 생성하는 과정)을 할 때, 이 텐서들을 순차적으로 읽어가면서 계산을 수행하는데요, 핵심은 한 번에 모든 텐서가 필요한 게 아니라 레이어(layer) 단위로 순서대로 처리된다는 점이에요.

이걸 비유하자면 이런 거예요. 두꺼운 백과사전 100권을 전부 책상 위에 올려놓고 읽을 필요 없이, 지금 읽고 있는 한 권만 책상에 꺼내놓고, 다 읽으면 다음 권을 꺼내오는 방식이죠. 책장(NVMe SSD)에서 책상(RAM)으로 한 권씩 가져다 놓는 거예요.

Hypura가 이걸 실현할 수 있는 데는 최신 NVMe SSD의 속도가 결정적인 역할을 해요. 최신 Apple Silicon Mac에 탑재된 NVMe SSD는 읽기 속도가 초당 수 GB에 달하거든요. 물론 메모리 대역폭(수백 GB/s)에 비하면 한참 느리지만, 영리한 프리페칭(prefetching, 미리 읽어오기)과 파이프라이닝으로 실제 계산 시간과 데이터 로딩 시간을 겹치게 만들면 실용적인 수준의 속도를 낼 수 있어요.

구체적으로 Hypura는 현재 레이어를 계산하는 동안 다음 레이어의 텐서를 미리 SSD에서 읽어오는 방식을 사용해요. 이렇게 하면 SSD에서 데이터를 읽어오는 대기 시간을 계산 시간 뒤에 숨길 수 있죠. 물론 토큰 생성 속도가 전부 메모리에 올려놓은 것만큼 빠르진 않겠지만, "아예 실행이 불가능"에서 "느리지만 실행 가능"으로 바뀌는 건 질적으로 완전히 다른 이야기예요.

비슷한 접근법들과의 비교

사실 "메모리보다 큰 모델을 어떻게든 돌려보자"는 시도는 이전에도 여러 가지가 있었어요.

가장 대표적인 건 양자화(quantization)예요. 모델의 정밀도를 낮춰서 크기를 줄이는 방법인데요, 예를 들어 16비트 부동소수점을 4비트로 줄이면 모델 크기가 4분의 1로 줄어들어요. llama.cpp가 이 방식으로 엄청난 인기를 끌었죠. 하지만 양자화에는 한계가 있어요. 너무 낮은 비트로 내리면 모델 품질이 떨어지고, 1조 파라미터 모델은 4비트 양자화를 해도 수백 GB나 되거든요.

또 다른 방법은 오프로딩(offloading)인데요, GPU VRAM이 부족할 때 일부 레이어를 시스템 RAM으로 보내는 방식이에요. HuggingFace의 Accelerate 라이브러리가 이걸 지원하죠. Hypura는 이 아이디어를 한 단계 더 밀어서, RAM도 부족할 때 SSD까지 끌어다 쓰는 거라고 볼 수 있어요.

최근에는 Apple이 MLX 프레임워크를 통해 Mac에서의 AI 추론을 적극 지원하고 있는데, Hypura는 이런 Apple Silicon의 통합 메모리 아키텍처와 빠른 NVMe 속도를 잘 활용한 프로젝트라고 볼 수 있어요.

한국 개발자에게 주는 시사점

솔직히 1조 파라미터 모델을 32GB Mac에서 돌리면 속도가 매우 느릴 거예요. 실시간 서비스에 바로 쓰기는 어렵겠죠. 하지만 이 프로젝트가 의미 있는 이유가 몇 가지 있어요.

첫째, 실험과 프로토타이핑 용도로는 충분히 가치가 있어요. 대형 모델의 동작을 이해하고 평가하기 위해 비싼 클라우드 GPU 인스턴스를 빌리지 않아도 내 맥북에서 직접 테스트해볼 수 있다는 건 개발 경험 면에서 큰 차이거든요.

둘째, 이 기술의 핵심 아이디어인 "메모리 계층 구조를 활용한 대형 모델 추론"은 앞으로 더 발전할 가능성이 높아요. SSD 속도는 매년 빨라지고 있고, CXL(Compute Express Link) 같은 새로운 인터커넥트 기술이 나오면 메모리 확장이 더 유연해질 거예요.

셋째, 프라이버시가 중요한 한국 기업 환경에서는 로컬 실행의 가치가 더 커요. 민감한 데이터를 외부 API로 보내지 않고 사내 하드웨어에서 처리할 수 있다면, 보안 요구사항이 까다로운 금융이나 의료 분야에서도 LLM 도입 장벽이 낮아지겠죠.