Mac mini 하나로 Gemma 4 26B 로컬 AI 돌리기: Ollama 셋업 가이드

내 맥 미니에서 26B 파라미터 모델을 돌린다고?

요즘 AI 모델을 직접 내 컴퓨터에서 돌려보고 싶다는 분들이 정말 많아졌어요. ChatGPT나 Claude 같은 클라우드 서비스도 좋지만, 매달 구독료가 나가고, 내 데이터가 외부 서버를 거쳐야 한다는 점이 꺼림칙하기도 하죠. 그래서 "로컬 LLM"이라는 흐름이 꾸준히 커지고 있는 건데요, 구글이 공개한 오픈 모델 Gemma 시리즈의 최신 버전인 Gemma 4 26B를 Apple Silicon Mac mini에서 Ollama를 이용해 돌리는 셋업 가이드가 공유되어 눈길을 끌고 있어요.

여기서 "26B"라는 건 모델의 파라미터(매개변수)가 260억 개라는 뜻이에요. 파라미터가 많을수록 모델이 더 복잡한 패턴을 학습할 수 있어서 일반적으로 성능이 좋아지는데, 그만큼 실행에 필요한 메모리와 연산 자원도 커지거든요. 예전에는 이 정도 규모의 모델을 개인 컴퓨터에서 돌린다는 건 상상도 못 했는데, Apple Silicon의 통합 메모리 구조 덕분에 지금은 가능해졌어요.

Ollama가 뭔데, 왜 쓰는 걸까

Ollama는 로컬에서 LLM을 쉽게 실행할 수 있게 해주는 도구예요. 원래 대규모 언어 모델을 내 컴퓨터에서 돌리려면 Python 환경 설정부터 모델 다운로드, 양자화 설정, 추론 엔진 구성까지 꽤 복잡한 과정을 거쳐야 하거든요. Ollama는 이 과정을 ollama run gemma4:26b 한 줄로 줄여주는 거예요. Docker가 컨테이너 실행을 간소화한 것처럼, Ollama는 LLM 실행을 간소화한다고 보면 돼요.

설치 자체도 간단해요. macOS에서는 Ollama 공식 사이트에서 앱을 받아 설치하면 끝이에요. 터미널에서 바로 모델을 당겨올 수 있고, 내장 API 서버도 함께 뜨기 때문에 다른 앱에서 HTTP 요청으로 모델과 대화할 수도 있어요. 개발자 입장에서는 로컬에 ChatGPT 같은 API 서버를 하나 띄워놓는 셈이죠.

Apple Silicon이 로컬 AI에 유리한 이유

이 가이드가 특별히 Mac mini를 대상으로 하는 데는 이유가 있어요. Apple Silicon(M1, M2, M3, M4 시리즈)은 CPU와 GPU가 같은 메모리를 공유하는 "통합 메모리 아키텍처(Unified Memory Architecture)"를 쓰거든요. 일반 PC에서는 GPU에 VRAM이 따로 있고, 모델 전체가 VRAM에 올라가야 빠르게 돌아가는데, VRAM이 부족하면 성능이 확 떨어져요. RTX 4090도 VRAM이 24GB라 26B 모델을 양자화 없이 온전히 올리기 빡빡하죠.

반면 Mac mini M4 Pro나 M4 Max는 통합 메모리가 36GB에서 최대 128GB까지 구성할 수 있어요. 이 메모리를 GPU가 바로 접근할 수 있으니까, 26B 규모의 모델도 양자화를 적용하면 충분히 올릴 수 있는 거예요. 양자화라는 건 모델의 숫자 정밀도를 낮춰서(예: 32비트 → 4비트) 메모리 사용량을 줄이는 기술인데, 약간의 품질 저하는 있지만 실사용에서는 거의 차이를 못 느낄 정도예요.

가이드에서는 4비트 양자화된 Gemma 4 26B 모델 기준으로, 약 16~18GB 정도의 메모리가 필요하다고 안내하고 있어요. Mac mini M4 Pro 기본 모델(24GB 메모리)에서도 돌릴 수 있다는 뜻이에요.

업계 맥락: 로컬 AI 생태계의 빠른 성장

로컬 LLM 실행 도구는 Ollama 외에도 여러 가지가 있어요. llama.cpp를 직접 빌드해서 쓰는 하드코어한 방법도 있고, LM Studio처럼 GUI 기반으로 편하게 쓸 수 있는 앱도 있죠. 최근에는 Jan이라는 오픈소스 클라이언트도 주목받고 있고요. 하지만 Ollama가 가장 넓은 사용자층을 확보하고 있는 이유는, CLI 기반의 간결함과 풍부한 모델 라이브러리, 그리고 OpenAI 호환 API를 기본 제공한다는 점 때문이에요.

모델 쪽에서 보면, 구글의 Gemma 시리즈는 Meta의 Llama 시리즈와 함께 오픈 모델의 양대 산맥이에요. Llama 4가 Scout, Maverick 등으로 세분화되면서 더 다양한 선택지를 제공하고 있고, Gemma 4도 이에 뒤지지 않는 성능을 보여주고 있어요. 특히 Gemma는 구글의 Gemini 기술을 기반으로 하면서도 상대적으로 가벼워서, 로컬 실행에 특히 적합하다는 평가를 받고 있어요.

한국 개발자에게 주는 시사점

솔직히 말하면, 한국어 성능은 아직 클라우드 서비스에 비해 떨어질 수 있어요. 하지만 몇 가지 시나리오에서는 로컬 LLM이 훨씬 유리해요. 회사에서 보안 정책 때문에 외부 API에 코드를 보낼 수 없는 경우, 개인 프로젝트에서 API 비용을 아끼고 싶은 경우, 혹은 오프라인 환경에서 AI 기능이 필요한 경우가 대표적이죠.

특히 Mac mini는 가격 대비 성능이 좋아서, 팀 내부용 AI 서버로 활용하는 사례도 늘고 있어요. 사무실 한쪽에 Mac mini를 놓고 Ollama API 서버를 띄워두면, 팀원들이 로컬 네트워크에서 자유롭게 AI 모델을 쓸 수 있으니까요. 월 수십만 원씩 나가는 API 비용을 초기 하드웨어 투자로 대체하는 셈이에요.