Ollama가 Apple Silicon에서 MLX 엔진으로 전환 — 맥에서 로컬 LLM 성능이 확 달라집니다

맥에서 로컬 LLM 돌리는 분들 주목하세요

Ollama가 Apple Silicon(M1, M2, M3, M4 칩) 환경에서 MLX 기반 추론 엔진을 프리뷰로 지원하기 시작했어요. 지금까지 Ollama는 내부적으로 llama.cpp를 사용해서 모델을 돌렸는데, 이제 Apple이 직접 만든 머신러닝 프레임워크 MLX를 백엔드로 선택할 수 있게 된 거예요.

MLX가 뭐냐면, Apple이 자사 Silicon 칩에 최적화해서 만든 머신러닝 프레임워크예요. 일반적인 GPU 프레임워크와 가장 큰 차이점은 통합 메모리(Unified Memory) 아키텍처를 제대로 활용한다는 거예요. 맥의 M 시리즈 칩은 CPU와 GPU가 같은 메모리를 공유하거든요. 기존의 llama.cpp도 Metal을 통해 GPU를 어느 정도 활용했지만, MLX는 아예 처음부터 이 통합 메모리 구조를 전제로 설계됐기 때문에 메모리 복사 오버헤드가 크게 줄어들어요.

구체적으로 뭐가 좋아지나요?

가장 체감이 큰 부분은 토큰 생성 속도예요. Ollama 블로그에 공개된 벤치마크를 보면, 동일한 모델을 같은 맥 하드웨어에서 돌렸을 때 MLX 백엔드가 llama.cpp 대비 눈에 띄는 성능 향상을 보여주고 있어요. 특히 모델 크기가 클수록, 그리고 메모리를 많이 잡아먹는 모델일수록 차이가 두드러지는데요. 이건 앞서 말한 통합 메모리 활용 효율 차이에서 오는 거예요.

또 하나 중요한 건 모델 로딩 시간이에요. MLX는 lazy evaluation(지연 평가) 방식을 쓰기 때문에 모델을 메모리에 올리는 과정이 더 효율적이에요. 지연 평가가 뭐냐면, 데이터를 미리 다 계산해놓는 게 아니라 실제로 필요한 시점에 계산하는 방식이에요. 큰 모델을 처음 로드할 때의 대기 시간이 줄어드는 효과가 있죠.

사용 방법은 매우 간단해요. Ollama를 최신 프리뷰 버전으로 업데이트한 뒤, 환경 변수나 설정에서 MLX 백엔드를 활성화하면 돼요. 기존에 받아둔 모델도 그대로 사용할 수 있고, ollama run 명령어의 사용법도 동일해요. 기존 워크플로우를 전혀 바꾸지 않아도 되는 거죠.

llama.cpp vs MLX, 어떤 흐름인가요?

로컬 LLM 추론 엔진 시장은 지금 꽤 흥미로운 구도예요. llama.cpp는 Georgi Gerganov가 만든 C/C++ 기반 추론 엔진으로, 크로스 플랫폼 지원이 강점이에요. Windows, Linux, macOS, 심지어 안드로이드에서도 돌릴 수 있죠. 반면 MLX는 Apple Silicon 전용이라 범용성은 떨어지지만, 해당 플랫폼에서의 최적화 수준은 압도적이에요.

비유하자면, llama.cpp가 어디서든 돌아가는 만능 스위스 군용칼이라면, MLX는 맥 전용으로 만든 최고급 칼인 셈이에요. Ollama가 이 두 엔진을 모두 지원하면서 사용자가 상황에 맞게 고를 수 있게 한 건 꽤 현명한 전략이에요.

한편 이 분야의 경쟁자로는 LM Studio, Jan, GPT4All 같은 앱들이 있어요. LM Studio도 최근 MLX 지원을 추가했고, 각자 UI/UX와 모델 관리 방식에서 차별화를 시도하고 있어요. 하지만 Ollama는 CLI 기반의 간결함과 API 서버 기능 덕분에 개발자들 사이에서 사실상 표준처럼 자리 잡았기 때문에, 여기에 MLX까지 얹어진 건 상당한 경쟁 우위가 될 거예요.

한국 개발자에게 어떤 의미가 있을까요?

맥북으로 개발하는 한국 개발자 비율이 꽤 높잖아요. 특히 스타트업이나 개인 프로젝트에서 로컬 LLM을 활용하려는 분들에게 이건 꽤 반가운 소식이에요.

예를 들어 코드 어시스턴트를 로컬에서 돌리고 싶은 경우, 회사 보안 정책 때문에 외부 API를 못 쓰는 환경에서 Ollama + MLX 조합으로 Codestral이나 DeepSeek-Coder 같은 코딩 모델을 더 빠르게 돌릴 수 있어요. RAG(검색 증강 생성) 파이프라인을 로컬에서 프로토타이핑할 때도 응답 속도가 빨라지면 개발 사이클이 그만큼 단축되겠죠.

다만 아직 프리뷰 단계라는 점은 기억해두세요. 일부 모델에서 호환성 이슈가 있을 수 있고, llama.cpp에서 지원하는 양자화 포맷 중 일부는 MLX에서 아직 안 될 수도 있어요. 프로덕션 환경보다는 개발·실험 용도로 먼저 테스트해보는 걸 추천드려요.