내 맥북 안에서 돌아가는 코딩 에이전트 만들기 — 클라우드 없이 로컬로

코드가 내 컴퓨터 밖으로 안 나간다면

요즘 코딩 에이전트, 정말 많이들 쓰잖아요. 그런데 대부분은 클라우드에 있는 모델을 호출하는 방식이라, 내 코드가 외부 서버로 오가는 게 마음에 걸릴 때가 있어요. 회사 보안 정책상 소스를 외부에 보내면 안 되거나, 토큰 비용이 부담되거나, 비행기·카페처럼 네트워크가 불안정한 곳에서 작업해야 할 때도 있고요. 이럴 때 떠오르는 대안이 바로 로컬 코딩 에이전트, 즉 내 맥북 안에서 모델까지 통째로 돌리는 방식이에요. ikyle.me에 올라온 macOS용 셋업 가이드를 바탕으로, 어떻게 구성하는지 차근차근 풀어볼게요.

먼저 '코딩 에이전트'가 뭐냐면, 단순히 코드를 한 줄 추천해주는 자동완성을 넘어서, 파일을 직접 읽고 고치고, 명령어를 실행하고, 결과를 보고 스스로 다음 행동을 정하는 똑똑한 비서예요. '이 버그 고쳐줘'라고 하면 관련 파일을 뒤져보고 수정안을 만들어 적용하는 식이죠. 이걸 외부 API 없이 내 기계 위에서 돌리자는 거예요.

구성은 크게 세 덩어리

로컬 셋업은 보통 세 부분으로 나눠서 생각하면 편해요.

1) 모델을 돌려주는 엔진. 이게 실제로 LLM을 내 컴퓨터에서 실행해주는 부분이에요. macOS에서는 Ollama가 제일 손쉬워요. 설치하고 명령어 한 줄이면 모델을 받아서 로컬 서버로 띄워주거든요. 좀 더 손맛을 보고 싶으면 LM Studio나 llama.cpp를, 애플 실리콘에 최적화된 MLX 같은 선택지도 있어요.

2) 코딩에 특화된 모델. 아무 모델이나 쓰는 게 아니라, 코드를 잘 다루도록 훈련된 모델을 골라야 해요. Qwen2.5-Coder, DeepSeek-Coder 계열처럼 코딩 특화 모델들이 평이 좋아요. 여기서 '양자화(quantization)'라는 말을 만나게 되는데, 이게 뭐냐면 모델의 숫자 정밀도를 살짝 낮춰서 용량과 메모리를 확 줄이는 기술이에요. 4비트 양자화 버전을 쓰면 똑같은 모델을 훨씬 가볍게 돌릴 수 있어서, 개인 노트북에서는 거의 필수예요.

3) 에이전트 프론트엔드. 모델 엔진과 내 작업을 이어주는 도구예요. 터미널에서 쓰는 Aider, 에디터에 붙이는 Continue 같은 게 대표적이에요. 이 도구들이 '파일을 읽고, 모델한테 물어보고, 답을 코드에 반영하는' 흐름을 관리해줘요. 대부분 로컬 모델 엔진(예: Ollama)을 백엔드로 지정할 수 있게 돼 있어서 연결도 어렵지 않고요.

하드웨어 — 결국 메모리 싸움

솔직하게 말하면, 로컬 LLM은 램(메모리)이 곧 체급이에요. 애플 실리콘은 통합 메모리라 GPU도 이 메모리를 같이 쓰는데, 모델이 통째로 메모리에 올라가야 빠르게 돌거든요. 16GB면 작은 모델로 맛은 볼 수 있고, 32GB는 돼야 중간급 코딩 모델이 쾌적하며, 64GB 이상이면 꽤 큰 모델까지 욕심낼 수 있어요. 메모리가 모자라면 디스크로 넘쳐서(swap) 속도가 뚝 떨어지니 주의하세요.

솔직한 한계와 업계 맥락

기대치를 정직하게 잡는 게 중요해요. 노트북에서 돌리는 로컬 모델은 아무래도 최신 클라우드 프런티어 모델보다 추론 능력이 약하고, 속도도 느리고, 한 번에 보는 맥락(컨텍스트) 길이도 짧아요. 복잡한 리팩터링이나 큰 코드베이스 전체를 이해해야 하는 작업에서는 클라우드 모델과 차이가 분명히 느껴질 거예요.

그래서 현실적인 그림은 '둘 중 하나'가 아니라 '역할 분담'이에요. 보안이 민감하거나 단순 반복 작업, 오프라인 환경에서는 로컬로, 정말 어려운 설계나 디버깅은 클라우드로 가는 식이죠. 로컬 모델 성능이 빠르게 올라오고 있어서, 이 분담선은 계속 로컬 쪽으로 넓어지는 추세예요.

한국 개발자에게 주는 시사점

특히 금융·공공·대기업처럼 외부에 코드를 보내면 안 되는 환경에서 일하는 분들에게는 로컬 에이전트가 단순한 취미가 아니라 실무 해법이 될 수 있어요. 사내망 안에서 폐쇄적으로 코딩 에이전트를 운영하고 싶을 때 이 구성이 출발점이 되거든요. 또 맥북 한 대만 있으면 토큰 비용 걱정 없이 마음껏 실험해볼 수 있다는 것도 학습용으로 큰 장점이에요.

마무리

한 줄로 정리하면, Ollama 같은 엔진 + 코딩 특화 모델 + Aider 같은 에이전트 도구, 이 세 덩어리만 맞추면 내 맥북 안에서 코드가 밖으로 한 번도 안 나가는 코딩 에이전트를 굴릴 수 있다는 거예요. 성능은 클라우드만 못해도, 프라이버시와 비용 면에서는 분명한 매력이 있죠.

여러분은 로컬 모델을 실무에 써본 적 있으세요? 어느 정도 작업까지 로컬로 버틸 만하다고 느끼셨는지, 본인의 분담 기준이 궁금해요.

🔗 출처: Hacker News

이 글도 읽어보세요