30만 원으로 데이터센터 GPU를 게이밍 PC에 박았다, V100으로 로컬 LLM 돌리기 도전기

중고 시장에 풀린 '왕년의 슈퍼카' GPU

혹시 Nvidia V100이라는 GPU 들어보셨나요? 2017년에 발표된 당시 최고급 데이터센터용 GPU예요. 출시 당시엔 한 장에 1만 달러를 호가했고, 전 세계의 슈퍼컴퓨터와 AI 연구소를 채웠던 모델이에요. ChatGPT의 GPT-3도 V100 수천 장으로 학습됐다고 알려져 있죠. 그런데 이 GPU가 요즘 중고 시장에 200파운드(약 30만 원대)에 풀리고 있어요. 한 개발자가 이걸 사서 자기 게이밍 PC에 박아 넣고 로컬 LLM을 돌려본 후기를 공개했어요.

왜 갑자기 이런 일이 가능해졌냐면, 데이터센터들이 H100, H200 같은 더 빠른 GPU로 교체하면서 V100을 무더기로 처분하고 있기 때문이에요. 성능은 여전히 쓸 만한데 가격이 폭락한 상태죠. 32GB VRAM 모델 기준으로 보면 같은 메모리 용량의 RTX 4090(24GB)이나 RTX 5090(32GB)에 비해 압도적으로 저렴해요.

그런데 '꽂기만 하면 끝'이 아니에요

저자가 겪은 첫 번째 난관은 물리적 설치예요. 데이터센터용 GPU는 일반 GPU랑 모양이 다르거든요. PCIe 슬롯에 꽂는 건 같지만, 전용 팬이 없어요. 서버 케이스에서 강력한 시스템 팬이 앞뒤로 강풍을 불어주는 걸 전제로 설계됐기 때문에, 일반 ATX 케이스에 그냥 꽂으면 몇 분 만에 90도를 넘기고 셧다운돼요. 저자는 3D 프린터로 팬 마운트 어댑터를 만들어서 서버용 80mm 블로워 팬을 강제로 붙였대요. 소음은 헤어드라이어 수준이지만 어쨌든 동작은 한다는 거죠.

두 번째는 전원 문제예요. V100은 일반 게이밍 GPU의 8핀이 아니라 CPU용 EPS 8핀을 쓰는데, 핀 배치가 살짝 달라서 전용 어댑터가 필요해요. 잘못 꽂으면 GPU가 즉시 사망할 수도 있는 부분이라 사람들이 가장 많이 실수하는 지점이에요.

세 번째는 드라이버예요. 최신 게임용 드라이버는 V100을 제대로 지원하지 않아요. 데이터센터용 드라이버를 따로 받아야 하고, 윈도우보다는 리눅스가 훨씬 안정적이에요. CUDA 호환성도 신경 써야 하고요.

그래서 LLM은 잘 돌아갈까

결론부터 말하면 '쓸 만하다'는 거예요. V100 32GB는 Llama 3 70B 양자화 버전(4비트로 압축한 모델)을 거뜬히 올릴 수 있어요. 추론 속도는 RTX 4090보다 살짝 느린 정도지만, VRAM이 큰 덕에 더 큰 모델을 통째로 올릴 수 있다는 게 강점이에요. 30B급 모델은 양자화 없이도 풀 정밀도로 돌릴 수 있고, 파인튜닝 실험도 충분히 가능해요.

다만 한계도 분명해요. V100은 Volta 아키텍처라서 bfloat16을 네이티브로 지원 안 해요. 요즘 LLM 학습 코드는 bf16을 기본으로 쓰는 경우가 많은데, V100에선 fp16으로 우회해야 하고 일부 라이브러리는 아예 호환이 안 돼요. 또 Flash Attention 같은 최신 최적화도 V100에선 제한적이에요. 그래서 '학습용'보다는 '추론·실험용'으로 보는 게 맞아요.

비슷한 선택지들과 비교하면

비슷한 가격대 옵션을 보면, Tesla P40 24GB가 더 저렴하지만 fp16 성능이 너무 떨어져서 요즘은 추천이 어렵고, RTX 3090 24GB 중고는 50만 원대로 게임도 같이 되지만 VRAM이 작아요. AMD MI50도 비슷한 가격대지만 ROCm 생태계가 아직 까다롭고요. 결국 30만 원대에 32GB VRAM을 확보하는 가장 현실적인 길이 V100이라는 결론에 도달하게 돼요.

한국 개발자에게 주는 의미

LLM을 진지하게 공부하고 싶은데 클라우드 비용이 부담스러운 분들에게 이런 셋업은 정말 매력적이에요. AWS에서 V100 한 시간 빌리는 가격이 3~4달러쯤 하니까, 본격적으로 실험하다 보면 한 달에 수십만 원이 우습게 나가거든요. 차라리 30~50만 원짜리 카드 하나 사두고 24시간 돌리는 게 훨씬 경제적이에요.

다만 한국에서 따라 해보려면 국내 중고 시장 가격은 더 비쌀 수 있다는 점, 그리고 데이터센터 GPU 직구 시 관세·VAT가 붙는다는 점은 꼭 계산해보셔야 해요. 또 가정용 220V 환경에서 250~300W를 지속적으로 뽑는 GPU를 돌리는 거니까, 파워서플라이와 발열·소음에 대한 각오는 필수예요.

마무리

'AI는 곧 돈싸움'이라는 말이 있지만, 이런 시도들은 그 통념에 작은 균열을 만들어요. 30만 원짜리 중고 데이터센터 GPU 한 장으로도 LLM을 진지하게 굴려볼 수 있는 시대니까요. 여러분은 로컬 LLM 환경을 어떻게 꾸리고 계신가요? 클라우드와 직접 구축, 어느 쪽이 더 현실적이라고 느끼시나요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 결국 모든 시스템 설계는 '백프레셔'로 귀결된다