"로컬 AI가 더 싸지 않을까?" 라는 환상
맥북 프로 M4 Max 같은 고성능 Apple Silicon이 나오면서 "이제 로컬에서 LLM 돌리는 게 답이지" 하는 분위기가 생겼습니다. 클라우드 API에 토큰당 돈 내는 것보다, 한 번 좋은 기기 사놓고 무제한으로 추론 돌리는 게 길게 보면 이득이라는 계산이죠. 프라이버시도 지킬 수 있고, 인터넷 끊겨도 쓸 수 있고, 토큰 단위 청구서를 신경 안 써도 되니까요.
그런데 William Angel이라는 개발자가 실제로 숫자를 계산해 봤더니, Apple Silicon에서 LLM을 돌리는 총 비용이 OpenRouter 같은 API 게이트웨이를 통해 클라우드 모델을 호출하는 것보다 비싸다는 결론이 나왔어요. 직관과는 정반대인데, 그 근거가 꽤 탄탄합니다. 한 번 같이 따져 볼게요.
계산의 출발점: 전력과 토큰
글쓴이가 따져본 항목은 크게 두 가지예요. 첫째는 하드웨어 구입 비용을 토큰 수로 나눈 단가, 둘째는 실제 추론 시 전력 소비량입니다. M4 Max 같은 칩이 LLM 추론에서 발생시키는 토큰 처리량(throughput)과, 그때 소비되는 전력(W)을 측정해서 "토큰 100만 개를 만드는 데 얼마가 드는가"를 산출한 거예요.
구체적으로 보면, 60~70억 파라미터 정도의 모델을 4비트 양자화해서 돌렸을 때 M 시리즈 칩이 내는 속도는 초당 수십 토큰 수준이에요. 그동안 시스템 전체가 빨아들이는 전력은 30~60W 정도 됩니다. 이걸 시간당으로 환산하면 0.05kWh 정도, 미국 평균 전기료 기준으로는 거의 무시할 만한 금액이지만, 처리되는 토큰 수와 비교하면 이야기가 달라져요.
반면 OpenRouter 같은 API 게이트웨이는 같은 등급의 오픈 모델(예: Llama 3 70B, Qwen 등)을 100만 토큰당 몇십 센트에서 1~2달러 선에 제공합니다. 작은 모델은 더 저렴하고요. 거기에 GPT-OSS나 DeepSeek 계열 무료 티어까지 끼면 단가는 더 떨어집니다. 글쓴이의 계산에 따르면 "M4 Max에서 직접 추론한 토큰의 전력 비용"이 "같은 토큰을 클라우드에서 사는 비용"과 비슷하거나 오히려 비싸지는 구간이 생긴다는 거예요.
왜 클라우드가 더 싼가
언뜻 이상하게 들리지만 이유는 명확합니다. 규모의 경제예요. 클라우드 추론 업체들은 H100, B200 같은 데이터센터 전용 GPU를 수천 장씩 모아놓고, 배치 처리(batching)와 KV 캐시 공유, 스페큘레이티브 디코딩 같은 기법으로 한 장의 GPU에서 동시에 수십~수백 개의 요청을 처리합니다. 한 토큰을 만드는 데 드는 한계 비용(marginal cost)이 매우 낮아지는 구조죠.
반면 로컬 추론은 "1인 1배치"입니다. M4 Max가 아무리 빨라도 동시에 한 사람의 요청만 처리하니까 GPU 활용률이 낮고, 토큰당 에너지 효율이 떨어져요. 게다가 데이터센터는 산업용 전기료(미국 기준 kWh당 5~7센트)를 쓰지만, 개인은 가정용 요금(15~30센트, 한국은 누진제까지)을 내잖아요. 같은 전력량을 써도 비용이 2~5배 차이 납니다.
그리고 하드웨어 감가상각도 빼놓을 수 없어요. M4 Max 맥북이 4000~6000달러인데, 3~4년 쓰고 중고로 절반에 판다고 쳐도 토큰당 "기기 비용"이 만만치 않습니다. 글쓴이는 이 모든 걸 합쳐서, 개인용 로컬 LLM은 "기능적 편의"의 가치는 있어도 "비용 효율"의 가치는 없다고 결론 내려요.
그럼 로컬 추론은 왜 하나
그렇다고 로컬 추론이 무의미한 건 아닙니다. 비용 외의 가치들이 있거든요. 가장 큰 건 프라이버시예요. 회사 코드나 개인 일기, 의료 기록 같은 민감 데이터를 외부 API로 보내고 싶지 않을 때 로컬 추론은 거의 유일한 선택지입니다. 그리고 오프라인 작동이 되니까 비행기 안이나 인터넷이 불안정한 환경에서도 쓸 수 있어요. API 의존성 제거도 큰 장점입니다. 클라우드 제공자가 모델을 갑자기 deprecate하거나 가격을 올려도 로컬은 영향을 받지 않거든요.
또 실험과 개발 환경으로서의 가치도 있어요. 작은 모델을 파인튜닝하거나, LoRA 어댑터를 붙여가며 실험할 때 토큰 청구서 걱정 없이 마음껏 돌릴 수 있다는 건 큰 이점이죠. 임베딩 생성처럼 대량 일괄 처리할 때도 로컬이 유리할 수 있고요.
업계 흐름에서 본 위치
이 분석은 "엣지 AI"와 "클라우드 AI"의 경계가 어디서 그어지는지에 대한 좋은 시그널입니다. Apple은 Apple Intelligence를 통해 "개인 기기에서 돌아가는 AI"를 강조하고, Google은 Gemini Nano를 안드로이드에 박아 넣고 있어요. 반면 Anthropic, OpenAI, OpenRouter 같은 곳은 클라우드 인프라의 규모를 무기로 토큰 단가를 계속 낮추고 있습니다. 두 진영이 노리는 영역이 다른 거예요. 엣지는 "민감/저지연/오프라인"을, 클라우드는 "대형/저비용/최신"을 가져갑니다.
NVIDIA의 DGX Spark처럼 "개인용 AI 워크스테이션"을 표방하는 제품들도 나왔지만, 글쓴이의 계산을 그대로 적용하면 이 역시 비용 효율로 정당화하긴 어려워요. 비용이 아닌 "통제권"의 가치를 사는 셈이죠.
한국 개발자에게 주는 시사점
한국은 전기 요금이 누진제라 가정에서 LLM을 많이 돌리면 단가가 더 빠르게 올라갑니다. 회사 데스크에 워크스테이션을 두고 24시간 돌리는 경우도 누진 구간을 따져봐야 해요. 또 OpenRouter 같은 게이트웨이가 결제 수단 면에서 진입 장벽이 있다면, 국내에는 KT나 네이버클라우드의 LLM API, 그리고 Together.ai 같은 글로벌 호스팅 서비스도 있으니 선택지가 많습니다.
실무에서는 "민감한 데이터는 로컬, 일반 워크플로우는 클라우드"의 하이브리드 전략이 가장 합리적이에요. 사이드카로 작은 모델을 로컬에 두고 1차 분류나 PII 마스킹을 시킨 뒤, 본격 추론은 클라우드 API에 보내는 식의 아키텍처가 점점 표준이 되고 있습니다.
마무리
핵심은 "로컬 LLM은 비용을 위해서가 아니라 통제권을 위해서 쓰는 것"입니다. 단순한 토큰 단가 계산만 보면 클라우드가 압도적으로 싸요. 다만 프라이버시, 오프라인, 의존성 제거 같은 가치를 어떻게 평가하느냐에 따라 결론이 달라지죠.
여러분은 로컬과 클라우드 중 어디에 더 무게를 두시나요? 회사에서 LLM을 도입할 때 비용보다 더 중요한 기준은 무엇이라고 보시나요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공