엔비디아 RTX Spark, 책상 위에 올려놓는 AI 슈퍼컴퓨터의 시대가 열렸어요

무슨 일이 있었냐면요

엔비디아가 RTX Spark라는 작은 데스크톱 컴퓨터를 발표했어요. 그런데 이게 그냥 평범한 PC가 아니에요. 한 손에 들어올 정도로 작은 크기인데, 내부에는 그레이스 블랙웰(Grace Blackwell) 아키텍처 기반의 GB10 슈퍼칩이 들어가 있어요. 쉽게 말하면, 데이터센터에서나 볼 법한 AI 전용 칩을 책상 위 작은 박스에 욱여넣은 거예요.

왜 지금 이게 중요하냐면, 그동안 대형 AI 모델을 로컬에서 돌리려면 수천만 원짜리 워크스테이션이나 클라우드 GPU를 빌려야 했거든요. 그런데 RTX Spark는 약 4,000달러 수준에서 시작해서, 개인 개발자나 작은 스타트업도 손에 넣을 수 있는 가격대로 내려왔어요. AI 개발 환경의 진입 장벽이 한 단계 무너지는 순간이에요.

안에 뭐가 들어있는지 살펴볼게요

GB10 슈퍼칩은 두 가지 부품이 합쳐진 구조예요. 하나는 블랙웰 GPU, 다른 하나는 ARM 기반 Grace CPU예요. 이 둘이 NVLink-C2C라는 초고속 연결로 묶여 있어서, CPU와 GPU가 메모리를 같이 쓸 수 있어요. 이게 뭐냐면, 보통 GPU로 AI 모델을 돌릴 때는 메모리에서 데이터를 GPU로 복사해야 하는 과정이 있는데, 이 박스에서는 그 복사 단계가 사라지는 거예요. 그래서 큰 모델도 끊김 없이 빠르게 처리할 수 있어요.

메모리는 무려 128GB의 통합 메모리(unified memory)를 제공해요. 이게 어느 정도냐면, 200B(2,000억) 파라미터 수준의 거대 언어 모델까지 로컬에서 추론할 수 있는 수준이에요. 게다가 두 대를 연결하면 405B 파라미터 모델까지도 돌릴 수 있다고 해요. 메타의 Llama 3.1 405B 같은 초대형 모델을 내 책상에서 돌릴 수 있다는 얘기예요.

연산 성능으로 보면 FP4 정밀도에서 약 1 페타플롭(PetaFLOP)의 AI 성능을 낸다고 하는데요. 페타플롭이라는 단위가 감이 잘 안 오시죠? 초당 1,000조 번의 연산을 한다는 뜻이에요. 10년 전이라면 슈퍼컴퓨터급 성능이었던 게, 이제 미니 데스크톱 안에 들어간 거예요.

기존 방식이랑 뭐가 다른지

지금까지 AI 개발자들이 선택할 수 있었던 옵션은 크게 세 가지였어요. 첫째, 클라우드(AWS, GCP 같은 곳)에서 GPU 인스턴스를 빌려 쓰는 방법. 빠르고 편하지만 시간당 요금이 무섭게 쌓여요. 둘째, RTX 4090이나 5090 같은 게이밍 GPU를 여러 장 꽂은 워크스테이션을 직접 조립하는 방법. 비용은 좀 줄지만 전력 소비와 발열이 어마어마하고, 대형 모델은 VRAM 용량 때문에 못 돌려요. 셋째, 애플 실리콘 맥(M3 Ultra 같은) 으로 통합 메모리의 이점을 활용하는 방법. 이건 조용하고 효율적이지만 CUDA 생태계를 못 써요.

RTX Spark는 이 셋의 단점을 다 피해 가려고 해요. 클라우드처럼 매달 돈 빠져나갈 걱정 없고, 워크스테이션처럼 시끄럽고 뜨겁지도 않고, 맥처럼 CUDA를 포기할 필요도 없어요. 엔비디아 입장에서는 사실상 애플 M3 Ultra 맥 스튜디오에 직접적으로 맞붙는 제품을 내놓은 셈이에요.

업계 흐름에서 보면

사실 이 흐름은 좀 더 큰 그림 안에 있어요. AMD도 Strix Halo라는 통합 메모리 기반 칩을 밀고 있고, 애플은 M 시리즈로 이미 이 방향을 선점하고 있죠. 모두가 "AI를 개인 기기에서 돌리자"는 방향으로 움직이고 있어요. 클라우드 비용이 너무 비싸고, 데이터 프라이버시 문제도 있고, 지연 시간도 줄여야 하니까요.

특히 주목할 만한 건, 엔비디아가 그동안 자기 영토였던 데이터센터 GPU 시장 너머로 영역을 확장한다는 거예요. DGX Spark라는 이름으로 먼저 알려진 이 제품군이 이제 RTX 브랜드로 더 대중적인 포지셔닝을 시도하는 모습이에요. 결국 "개인 AI 워크스테이션"이라는 새로운 카테고리를 엔비디아가 만들어가고 있는 거죠.

한국 개발자한테는 어떤 의미인지

실무에서 LLM 파인튜닝이나 RAG 시스템을 만들어보고 싶었던 분들한테는 꽤 매력적인 선택지예요. 그동안은 GPU 클라우드 비용이 부담스러워서 작은 모델만 만지작거리던 분들이 많았는데, 128GB 통합 메모리면 70B급 모델도 충분히 다룰 수 있거든요. 특히 사내 데이터를 외부 클라우드에 올리기 곤란한 보안 민감한 환경(금융권, 의료 분야)에서는 로컬 AI 서버로서 의미가 클 수 있어요.

다만 주의할 점도 있어요. 메모리 대역폭이 H100 같은 데이터센터 GPU보다는 낮기 때문에, 학습보다는 추론과 소규모 파인튜닝에 적합해요. 그리고 ARM 기반 CPU라서 일부 x86 전용 도구는 호환성 이슈가 있을 수 있고요. 실제로 도입하기 전에 자기 워크로드가 이 박스에 맞는지 벤치마크를 꼭 해봐야 해요.