M4 맥북에 24GB 메모리로 로컬 LLM 돌려보기, 어디까지 가능할까

내 노트북에서 GPT처럼 돌아가는 모델, 진짜 쓸만할까요?

요즘 ChatGPT나 Claude 같은 AI 서비스를 안 쓰는 개발자는 거의 없을 거예요. 그런데 한편으로는 이런 생각도 들거든요. "매번 클라우드로 코드를 보내는 게 찜찜한데, 그냥 내 노트북에서 돌리면 안 되나?" 사실 가능합니다. 그것도 일반 개발자가 쓰는 맥북에서요. M4 칩이 들어간 맥미니나 맥북에 24GB 메모리만 있으면, 꽤 쓸만한 수준의 로컬 LLM을 직접 돌려볼 수 있다는 실제 경험담이 공유되었어요.

로컬 LLM이라는 게 뭐냐면, 클라우드 서버에 요청을 보내는 게 아니라 내 컴퓨터 안에서 직접 추론(inference)을 돌리는 거예요. 모델 파일을 내려받아서 메모리에 올린 다음, 거기서 토큰을 생성해내는 방식이죠. 인터넷이 끊겨도 작동하고, 입력한 데이터가 외부로 나갈 일이 없으니 프라이버시 측면에서도 안심이 됩니다.

M4의 통합 메모리, 왜 LLM에 유리할까

여기서 애플 실리콘의 특이한 구조가 빛을 발해요. 일반적인 PC에서는 GPU가 따로 있고, 그 GPU만의 별도 VRAM(그래픽 메모리)을 가지고 있어요. 그래서 24GB짜리 모델을 돌리려면 RTX 4090 같은 비싼 GPU가 필요했죠. 그런데 M4 칩은 "유니파이드 메모리(Unified Memory)"라는 구조를 써요. 이게 뭐냐면, CPU와 GPU가 같은 메모리 풀을 공유하는 거예요. 그래서 시스템 메모리가 24GB면, GPU도 그 24GB를 그대로 쓸 수 있는 거죠.

이 덕분에 7B(70억 파라미터), 8B 정도 규모의 모델은 부담 없이 돌아가고, 양자화(quantization)를 적용하면 13B 모델까지도 어느 정도 굴릴 수 있어요. 양자화라는 건, 모델의 가중치(weights)를 원래의 16비트나 32비트 부동소수점에서 4비트나 8비트 정수로 줄여 저장하는 기법이에요. 정밀도는 살짝 떨어지지만 메모리 사용량이 절반 이하로 줄어들어서, 적은 메모리로도 큰 모델을 돌릴 수 있게 해주는 마법 같은 트릭이죠.

Ollama, LM Studio, llama.cpp

실제로 돌리는 방법도 예전보다 훨씬 쉬워졌어요. Ollama는 명령어 한 줄이면 모델을 받아서 바로 채팅을 시작할 수 있는 도구인데, ollama run llama3.1 같은 식으로 입력하면 알아서 다운로드하고 메모리에 올려줍니다. GUI를 선호한다면 LM Studio가 있어요. 모델을 검색하고 다운받고 채팅하는 모든 과정이 시각적으로 깔끔하게 정리되어 있죠. 좀 더 깊게 파고 싶다면 llama.cpp라는 C++ 기반의 추론 엔진을 직접 빌드해서 쓸 수도 있고요.

속도 면에서는 어떨까요? 7B~8B 모델 기준으로 초당 20~40 토큰 정도 나오는데, 이게 대충 사람이 글을 읽는 속도보다 빠른 정도예요. 코드 자동완성이나 간단한 질의응답, 문서 요약 같은 작업에는 충분히 실용적이라는 평가가 많습니다. 13B로 올라가면 속도가 좀 떨어지긴 하지만 그래도 "기다릴 만한" 수준이에요.

클라우드 AI와의 비교, 그리고 한계

물론 GPT-4나 Claude Opus 같은 대형 모델하고 비교하면 추론 품질에는 분명한 차이가 있어요. 200B, 400B급 모델의 미묘한 추론 능력을 8B 모델이 따라잡을 수는 없죠. 하지만 "내가 자주 하는 일"이 코드 리뷰, 변수명 짓기, 짧은 함수 작성, 영문 메일 다듬기 같은 거라면, 로컬 모델로도 80%는 해결됩니다. 게다가 토큰 사용료 걱정 없이 무제한으로 쓸 수 있다는 게 진짜 매력이에요.

비슷한 흐름으로는 Mistral, Qwen, DeepSeek 같은 오픈 가중치 모델이 계속 쏟아져 나오고 있고, 한국에서도 솔라(Solar) 같은 모델들이 로컬 환경에 최적화된 버전을 내놓고 있어요. NVIDIA의 RTX 시리즈, AMD의 Strix Halo 같은 경쟁 하드웨어도 있지만, 가격 대비 성능과 전력 효율을 따지면 M4 맥미니가 의외로 가성비 좋은 LLM 워크스테이션이 되어가고 있는 상황입니다.

한국 개발자가 지금 시도해볼 만한 것

실무에 바로 적용해볼 수 있는 시나리오는 꽤 많아요. 사내 코드나 민감한 문서를 외부 API로 보낼 수 없는 회사에서는 로컬 LLM을 사내 코파일럿처럼 쓸 수 있고요, VS Code의 Continue 같은 확장 프로그램을 Ollama와 연결하면 무료 AI 코딩 어시스턴트가 완성됩니다. 사이드 프로젝트로 RAG(검색 증강 생성) 시스템을 만들어 보거나, 개인 노트 검색 봇을 붙여보는 것도 좋은 시작점이에요.

다만 16GB 메모리 모델은 좀 빡빡하다는 점, 그리고 모델을 메모리에 올리면 다른 작업이 둔해질 수 있다는 점은 미리 알아두면 좋아요. 그래서 메모리는 가능하면 24GB 이상, 진지하게 쓸 거면 32GB나 64GB를 추천하는 글들이 많습니다.

마무리

클라우드 AI 시대에 "내 컴퓨터에서 직접 돌리기"가 다시 매력적인 선택지로 떠오르고 있어요. 비용, 프라이버시, 오프라인 가용성이라는 세 가지 장점이 워낙 분명하거든요. 여러분은 어떠세요? 클라우드 AI에만 의존하는 게 편한 편인가요, 아니면 한 번쯤 내 노트북에서 로컬 LLM을 굴려보고 싶은 마음이 있나요?

🔗 출처: Hacker News

이 글도 읽어보세요