처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.05.22 73

5천만원짜리 GPU 서버, 6개월 써본 솔직 후기 - 클라우드 vs 온프레미스 다시 생각하기

Hacker News 원문 보기
5천만원짜리 GPU 서버, 6개월 써본 솔직 후기 - 클라우드 vs 온프레미스 다시 생각하기

직접 GPU 서버를 산 개발자의 회고

Rosmine.ai를 운영하는 어떤 개발자가 48,000달러(약 6,500만원)짜리 GPU 서버를 직접 구매한 뒤 6개월간 운영해본 결과를 정리한 글이에요. 요즘 같은 AI 시대에 이런 질문이 많아졌죠. "클라우드 GPU를 빌려쓸 것인가, 그냥 한 대 사버릴 것인가?" 이 글은 그 의사결정의 실제 손익을 숫자로 보여줘요.

구성은 이래요. NVIDIA H100 SXM5 GPU 4장을 단 서버 한 대. 한 장당 약 8천 달러 후반대, 그리고 메인보드, CPU, RAM, NVMe SSD, 전원 공급 장치까지 포함해서 총 48K 달러였다고 해요. 이 정도면 중소 규모 스타트업에서도 한 번쯤 고민해볼만한 액수예요.

왜 클라우드가 아니라 직접 사기로 했을까

저자는 처음엔 AWS, Lambda Labs, RunPod 같은 클라우드 GPU를 썼대요. 그런데 모델 파인튜닝과 추론 워크로드를 24시간 돌리다 보니 월 청구서가 1만 달러를 넘어가기 시작했어요. 단순 계산만 해도 5개월이면 서버 한 대 값이 나오는 거죠. 거기다 클라우드 GPU는 자주 "재고 없음" 상태가 되거나, 스팟 인스턴스(저렴한 대신 언제든 끊길 수 있는 인스턴스)는 중요한 학습 도중에 끊겨버리는 문제도 있었어요.

그래서 직접 구매를 결심했는데, 6개월 운영해본 결과는 "확실히 본전 뽑았다"예요. 같은 워크로드를 클라우드에서 돌렸으면 6만 달러 이상이 나왔을 거라고 추정해요. 즉 이미 손익분기를 넘었고, 앞으로 쓰는 만큼은 순이익인 셈이죠.

그런데 숨어 있는 비용들이 만만치 않아요

글에서 가장 흥미로운 부분이 이 부분이에요. GPU 서버를 사는 건 시작에 불과하다는 거죠.

첫째, 전기요금이에요. H100 4장이 풀로드로 돌면 시스템 전체가 3kW 가까이 전기를 먹어요. 24시간 가동하면 한 달에 전기료만 수십만원이 나와요. 데이터센터 코로케이션(서버를 데이터센터에 맡기는 것)에 넣으면 안정적이지만 추가 비용이 들고, 집이나 사무실에 두면 더우니까 에어컨까지 돌려야 해요.

둘째, 냉각이에요. H100은 발열이 어마어마해서 일반 사무실 환경에선 안정 운영이 어려워요. 저자는 결국 전용 공간에 별도 냉각 솔루션을 마련했다고 해요.

셋째, 운영 부담이에요. 드라이버 충돌, NVLink 인식 문제, NVMe 디스크 장애 같은 하드웨어 이슈가 클라우드에선 "인스턴스 재시작"으로 끝나는데, 자가 운영에선 직접 손으로 해결해야 해요. 새벽에 학습이 멈춰서 일어나 봐야 하는 일도 생긴대요.

넷째, 감가상각이에요. H100은 지금은 최고급이지만, 2~3년 후 H200, B100 같은 후속 모델이 본격 보급되면 가격이 뚝 떨어져요. 클라우드는 항상 최신 GPU를 쓸 수 있지만, 직접 산 사람은 그 위험을 떠안아야 해요.

그래서 결론은

저자가 내린 결론이 흥미로워요. "하루 4시간 이상 GPU를 풀로드로 굴리는 워크로드라면, 직접 사는 게 1~2년 안에 이득"이라는 거예요. 반면 가끔 학습을 돌리는 정도면 클라우드가 압도적으로 유리해요. 또 하나, 본인이 인프라 관리에 시간을 쓰는 게 즐겁지 않다면 그 시간 비용도 계산에 넣어야 해요.

업계 흐름으로 보면 이건 큰 트렌드의 일부예요. 한동안 "모든 게 클라우드로 간다"는 흐름이었는데, AI 워크로드가 폭증하면서 다시 온프레미스(On-Premise)나 코로케이션 회귀 현상이 보여요. DHH가 이끄는 37signals가 AWS에서 빠져나오면서 화제가 됐던 것도 같은 맥락이에요. 클라우드의 종량제 요금이 "가끔 쓰는 사람"한텐 천국이지만 "항상 풀로 쓰는 사람"한텐 지옥이라는 게 점점 분명해지고 있어요.

한국 개발자가 참고할 점

한국에서는 좀 더 복잡해요. 첫째, H100을 합법적으로 구하기가 쉽지 않아요. 미국의 대중국 수출 규제 영향으로 동아시아 일부 국가에서 공급이 제한되는 경우가 있고, 한국도 정식 유통 경로가 제한적이에요. 가격도 미국보다 비싸요.

둘째, 전기료가 미국과 다른 구조예요. 한국은 산업용 전기가 상대적으로 저렴하지만 누진제와 계약 종류에 따라 천차만별이에요. 일반 사무실에서 H100을 운영하는 건 전기 계약부터 다시 봐야 할 수 있어요.

셋째, 국내 GPU 클라우드 옵션이 다양해졌어요. 네이버 클라우드, KT 클라우드, 그리고 NHN, NIPA의 AI 바우처 같은 정부 지원 프로그램도 있어요. 스타트업이라면 이런 옵션을 먼저 다 검토해보는 게 좋아요. H100을 시간당 빌려주는 국내 서비스도 늘어나는 추세예요.

넷째, 현실적인 대안으로 RTX 4090 멀티 GPU 워크스테이션도 고려해볼 만해요. H100보단 성능이 낮지만 가격은 1/10 수준이라, 7B~13B 모델 파인튜닝 정도는 충분히 돌릴 수 있어요. 많은 한국 AI 스타트업이 이 방식을 선택하고 있어요.

마무리

결국 "클라우드 vs 자가 GPU"의 정답은 워크로드의 성격과 운영 역량에 달려 있어요. 숫자만 보면 자가 운영이 싸 보이지만, 보이지 않는 비용까지 계산하면 결과는 달라질 수 있어요.

여러분의 팀에서는 어떤가요? AI 워크로드가 늘고 있다면, 지금 쓰는 클라우드 비용을 한 번 계산해보세요. "우리도 한 대 살까?"라는 질문이 의외로 현실적인 답이 될 수도 있거든요.


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.