
“회사 코드를 ChatGPT에 붙여넣어도 되나?” 한 번쯤 고민해보셨을 거예요. 보안 정책 때문에 상용 AI 사용이 아예 막혀 있는 회사도 많고, 매달 나가는 구독료와 API 비용도 은근히 부담이거든요. 그래서 요즘 “내 컴퓨터에서 직접 LLM을 돌리자”는 흐름이 빠르게 커지고 있는데요. 비트코인 코어 개발자로 잘 알려진 James O'Beirne이 최신급 오픈 모델을 로컬에서 돌리기 위한 하드웨어 선택부터 소프트웨어 세팅까지를 정리한 가이드를 깃허브에 공개했어요. 로컬 LLM에 입문하려는 분들에게 좋은 출발점이 될 만한 자료라서 핵심을 풀어서 소개해볼게요.
로컬 LLM의 핵심은 결국 “메모리”예요
LLM을 내 컴퓨터에서 돌릴 때 가장 중요한 자원은 CPU 속도가 아니라 메모리예요. 모델의 “파라미터”라는 숫자 덩어리 전체를 메모리에 올려놓고 계산해야 하거든요. 이게 뭐냐면, 모델이 학습하면서 익힌 지식이 수백억~수천억 개의 숫자로 저장돼 있는 건데, 이걸 전부 빠른 메모리에 담아둬야 답변 속도가 나와요. 예를 들어 700억 개(70B) 파라미터 모델을 원본 정밀도 그대로 올리려면 140GB가 넘는 메모리가 필요해요. 일반 게이밍 GPU로는 어림도 없는 크기죠.
그래서 등장하는 게 “양자화(quantization)”예요. 쉽게 말하면 사진 해상도를 줄여서 용량을 아끼는 것과 비슷해요. 모델의 숫자 하나하나를 16비트 대신 4비트 정도로 줄여서 저장하면, 품질은 살짝 손해 보는 대신 메모리 사용량이 4분의 1 수준으로 줄어요. 덕분에 70B 모델도 40GB대 메모리에서 돌릴 수 있게 되는 거죠. llama.cpp 진영에서 쓰는 GGUF 파일 포맷이 이런 양자화 모델의 대표 형식이에요.
하드웨어는 크게 두 갈래예요
로컬 LLM 하드웨어는 크게 두 노선으로 나뉘어요. 첫 번째는 NVIDIA GPU 노선이에요. VRAM(GPU에 붙어 있는 전용 메모리)이 클수록 유리한데, 중고 RTX 3090(24GB)을 여러 장 묶어 쓰는 조합이 가성비로 자주 언급돼요. 토큰 생성 속도가 빠르고 생태계 지원이 가장 넓다는 게 장점이지만, 전기를 많이 먹고 발열과 소음도 만만치 않아요.
두 번째는 Apple Silicon 노선이에요. 맥은 CPU와 GPU가 메모리를 함께 쓰는 “통합 메모리” 구조라서, 128GB~512GB 메모리를 얹은 Mac Studio 한 대로 초대형 모델을 올릴 수 있어요. 전력 소모가 적고 조용한 대신, 같은 가격대의 NVIDIA 조합보다 답변 생성 속도는 느린 편이고요. 조용한 서재에 한 대 두고 혼자 쓰는 용도라면 맥, 속도와 동시 처리가 중요하면 NVIDIA라고 정리할 수 있겠네요.
소프트웨어와 모델은 뭘 쓰나요
추론 엔진으로는 llama.cpp가 사실상 표준이에요. C++로 짜인 가벼운 엔진인데 맥이든 리눅스든 어디서나 잘 돌아가요. 처음이라면 이걸 감싸서 설치와 모델 관리를 쉽게 만들어주는 Ollama로 시작하는 것도 좋아요. 여러 사용자가 동시에 쓰는 서버를 만들 거라면 vLLM 같은 서빙 전용 엔진이 낫고요. 여기에 Open WebUI 같은 웹 UI를 붙이면 ChatGPT와 비슷한 채팅 화면을 그대로 만들 수 있어요.
모델 쪽은 요즘 오픈 웨이트(가중치 공개) 진영이 정말 좋아졌어요. DeepSeek, Qwen, GLM 같은 중국계 모델들이 상용 모델과의 격차를 크게 좁혔고, OpenAI도 gpt-oss라는 오픈 모델을 내놨죠. 특히 최신 대형 모델들은 MoE(전문가 혼합) 구조를 많이 쓰는데, 이게 뭐냐면 모델 안에 여러 “전문가” 조각을 두고 질문마다 필요한 일부만 깨워서 쓰는 방식이에요. 전체 크기는 커도 실제 계산량은 훨씬 적어서, 메모리는 크지만 연산력이 상대적으로 약한 로컬 환경에 특히 유리해요.
한국 개발자에게는 어떤 의미일까요
보안 때문에 외부 AI를 못 쓰는 금융권이나 대기업 환경이라면, 로컬 LLM은 선택이 아니라 거의 유일한 답이에요. 사내망 안에서 코드 리뷰나 문서 작성을 도와주는 어시스턴트를 만들 수 있으니까요. 개인 개발자 입장에서도 API 요금 걱정 없이 마음껏 실험할 수 있는 놀이터가 생기는 셈이고요. 다만 초기 하드웨어 비용과 전기료, 그리고 상용 최상위 모델과의 품질 차이는 여전히 존재해요. 그래서 “모든 걸 로컬로”보다는 민감한 데이터를 다루는 작업은 로컬 모델로, 고난도 작업은 상용 API로 나눠 쓰는 하이브리드 전략이 현실적이에요.
정리하면, 로컬 LLM은 이제 “되긴 되는 실험”이 아니라 “실무에 넣을 만한 선택지”가 됐어요. 여러분이라면 어디에 투자하시겠어요? 중고 GPU를 모아 조립 서버를 만들지, 통합 메모리 빵빵한 맥 한 대로 갈지, 아니면 그냥 API 구독을 유지할지 — 각자의 계산법이 궁금하네요.
🔗 출처: Hacker News