클라우드 없이 초거대 모델을 돌린다고?
tinygrad의 창업자 George Hotz가 만든 하드웨어 프로젝트 tinybox가 본격적으로 모습을 드러내고 있다. tinybox는 이름 그대로 '작은 상자'지만, 그 안에 담긴 성능은 전혀 작지 않다. 오프라인 환경에서 최대 1200억(120B) 파라미터 규모의 AI 모델을 구동할 수 있는 데스크탑 형태의 AI 추론 장비다. 클라우드 API 호출 없이, 인터넷 연결 없이, 내 책상 위에서 LLaMA 급의 초거대 모델을 돌릴 수 있다는 의미다.
이것이 왜 중요한지 이해하려면, 현재 대부분의 AI 워크로드가 어떻게 처리되는지를 알아야 한다. GPT-4, Claude, Gemini 같은 대형 언어 모델은 수천 대의 GPU가 있는 데이터센터에서 돌아간다. 일반 개발자가 이런 모델을 사용하려면 OpenAI나 Anthropic 같은 회사의 API를 호출해야 하고, 그 과정에서 데이터가 외부 서버로 전송된다. 보안이 민감한 기업 환경이나, 인터넷이 불안정한 상황에서는 이것이 큰 제약이 된다.
tinybox의 기술적 구성
tinybox는 두 가지 모델로 나뉜다. 기본형인 tinybox는 6개의 AMD Radeon RX 7900 XTX GPU를 탑재하고 있으며, 총 144GB의 GPU 메모리를 제공한다. 상위 모델인 tinybox pro는 6개의 NVIDIA RTX 4090 또는 그에 준하는 고성능 GPU를 장착해 더 큰 모델이나 더 빠른 추론 속도를 지원한다.
여기서 핵심은 GPU 메모리 용량이다. 1200억 파라미터 모델을 16비트 부동소수점(FP16)으로 로드하려면 약 240GB의 메모리가 필요하다. 하지만 4비트 양자화(quantization)를 적용하면 약 60~70GB 수준으로 줄일 수 있고, 144GB라면 충분히 여유가 있다. 양자화란 모델의 가중치(weight)를 더 낮은 정밀도로 표현하는 기법인데, 약간의 품질 손실은 있지만 실용적인 수준에서는 거의 차이를 느끼기 어렵다. 최근 GGUF, GPTQ, AWQ 같은 양자화 포맷이 발전하면서, 양자화된 모델의 품질이 원본에 매우 근접해졌기 때문에 이런 접근이 가능해졌다.
tinybox의 소프트웨어 스택도 주목할 만하다. George Hotz가 직접 개발한 tinygrad라는 딥러닝 프레임워크 위에서 동작한다. tinygrad는 PyTorch나 TensorFlow에 비해 코드 규모가 극도로 작다. 전체 코드가 수천 줄 수준인데, 이는 의도적인 설계 철학이다. 코드가 작으면 이해하기 쉽고, 디버깅이 용이하며, 특정 하드웨어에 맞게 최적화하기도 수월하다. AMD GPU와 NVIDIA GPU를 모두 지원하면서도 통일된 인터페이스를 제공한다는 점에서, 프레임워크 차원의 하드웨어 추상화가 잘 되어 있다고 볼 수 있다.
기존 온프레미스 AI 솔루션과의 비교
로컬에서 LLM을 돌리는 방법은 이미 여러 가지가 있다. llama.cpp를 사용하면 일반 소비자용 GPU나 심지어 CPU만으로도 7B~13B 규모의 모델을 구동할 수 있다. Ollama 같은 도구는 이를 더 쉽게 만들어준다. 하지만 이런 도구들로 120B급 모델을 돌리려면 여러 대의 컴퓨터를 네트워크로 연결하거나, 매우 고가의 워크스테이션이 필요하다.
NVIDIA의 DGX 시리즈는 엔터프라이즈급 AI 워크스테이션의 대표주자인데, 가격이 수억 원대다. A100이나 H100 GPU를 8개 탑재한 DGX H100의 경우 3억 원 이상이다. tinybox는 이에 비해 훨씬 저렴한 가격대(수백만 원~수천만 원 수준)를 목표로 하면서, 소비자용 GPU를 활용해 비용 대비 성능을 극대화하는 전략을 취하고 있다.
Apple의 Mac Studio나 Mac Pro도 통합 메모리(Unified Memory) 덕분에 대형 모델을 로드할 수 있지만, GPU 연산 성능 자체는 전용 GPU 클러스터에 비해 부족하다. tinybox는 6개의 독립 GPU가 병렬로 동작하므로, 순수 추론 속도에서는 더 유리할 수 있다.
한국 개발자에게 주는 시사점
한국에서도 AI 보안과 데이터 주권에 대한 관심이 높아지고 있다. 금융, 의료, 국방 분야에서는 외부 API로 데이터를 보내는 것 자체가 규제 위반이 될 수 있다. tinybox 같은 온프레미스 AI 장비는 이런 환경에서 실질적인 대안이 된다. 사내에서 민감한 코드 리뷰를 AI로 하고 싶지만 코드를 외부로 보낼 수 없는 경우, 사내 문서를 기반으로 RAG(Retrieval-Augmented Generation) 시스템을 구축하고 싶지만 문서가 기밀인 경우 등이 대표적인 활용 시나리오다.
또한 tinygrad 프레임워크 자체가 교육적 가치가 높다. 수만 줄~수십만 줄인 PyTorch의 내부를 이해하기는 매우 어렵지만, tinygrad는 전체 구조를 한 사람이 파악할 수 있는 규모다. 딥러닝 프레임워크가 어떻게 동작하는지, 텐서 연산이 GPU에서 어떻게 실행되는지를 학습하기에 좋은 참고 자료다.
마무리
클라우드 AI 시대에 역행하는 것처럼 보이지만, 오히려 그래서 tinybox의 포지셔닝이 독특하다. 모든 AI 워크로드가 클라우드로 갈 필요는 없으며, 오프라인에서도 충분히 강력한 AI를 운용할 수 있다는 것을 증명하는 제품이다. 여러분이라면 120B 모델을 로컬에서 돌릴 수 있다면, 가장 먼저 어떤 용도로 사용해보고 싶으신가요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공