쉬는 맥북을 AI 추론 서버로 - Darkbloom의 분산 프라이빗 추론

책상 위 맥북, 너무 아깝지 않나요?

M1, M2, M3, M4 맥북을 쓰는 분들 많죠. 통합 메모리 구조 덕분에 32GB, 64GB, 심지어 128GB 메모리를 가진 맥들이 점점 흔해졌어요. 그런데 이 비싼 장비가 하루 대부분의 시간 동안 그냥 쉬고 있습니다. 회의 시간, 점심 시간, 퇴근 후 시간을 다 더하면 24시간 중 실제로 풀가동되는 건 몇 시간 안 되거든요. Darkbloom이라는 새 프로젝트는 바로 이 "놀고 있는 맥"들을 모아 프라이빗 AI 추론 클러스터로 만들겠다는 아이디어로 출발했어요.

어떻게 동작하나

맥의 M 시리즈 칩은 LLM 추론에 의외로 강해요. 통합 메모리(Unified Memory) 구조 덕분에 GPU와 CPU가 같은 메모리 풀을 공유하거든요. NVIDIA GPU처럼 비디오 메모리에 모델을 따로 올리는 단계가 없어서, 64GB 맥북이라면 70B(700억 파라미터) 양자화 모델도 무리 없이 돌아갑니다. 문제는 한 대로는 처리량이 부족하다는 거였는데, Darkbloom은 여러 대를 묶어 이 한계를 풀어내는 접근을 택했어요.

구체적으로는 사용자가 자신의 맥북에 Darkbloom 데몬을 설치해두면, 기기가 유휴 상태일 때 네트워크로 추론 요청을 받아 처리합니다. 모델은 이미 로컬에 있고, 요청이 들어오면 일정 시간 동안 추론을 수행한 뒤 결과만 돌려줘요. 중요한 건 추론 요청 자체가 암호화되어 처리된다는 점이에요. 이게 바로 "private inference"의 핵심인데, 추론을 수행하는 노드조차도 사용자의 프롬프트가 무엇인지 모르도록 설계하는 게 목표예요.

왜 "프라이빗"이 중요한가

ChatGPT나 Claude 같은 클라우드 LLM을 쓸 때 한 가지 찜찜한 게 있어요. 내가 입력한 프롬프트가 그 회사 서버에 그대로 전송된다는 점이에요. 회사 내부 코드, 의료 데이터, 법률 문서를 외부 API에 보내는 게 부담스러운 영역이 분명히 존재합니다. 그래서 등장한 게 "우리 사무실 안 맥북들끼리만 모델을 돌리자" 같은 시도예요. Darkbloom이 추구하는 건 여기서 한 발 더 나아가, 다른 사람의 맥에서 내 프롬프트를 처리하더라도 그 사람이 내용을 못 보게 하는 것입니다.

이를 위한 기술적 기반으로는 동형 암호(homomorphic encryption)나 신뢰 실행 환경(TEE) 같은 개념이 거론돼요. Apple Silicon에는 Secure Enclave라는 별도 보안 칩이 들어 있어서, 메모리 일부를 격리된 영역에서 실행할 수 있어요. Darkbloom이 이걸 어떻게 활용하는지가 신뢰성의 관건이 될 것 같습니다. 진짜 "제로 트러스트 추론"이 가능한지, 아니면 일정 부분 노드 운영자를 신뢰해야 하는지가 평가 포인트예요.

비슷한 시도들

분산 AI 추론은 새로운 분야가 아니에요. Petals라는 프로젝트는 BitTorrent처럼 여러 사람의 GPU를 묶어 거대 모델을 돌리는 시도를 해왔고, EXO는 맥, 아이폰, 아이패드를 모두 묶어 클러스터를 만드는 도구로 알려져 있어요. Hyperbolic, Akash 같은 분산 GPU 마켓플레이스도 비슷한 결을 가지고 있습니다.

Darkbloom이 이들과 다른 점은 "맥에 특화"하면서 "프라이버시를 1순위"로 둔다는 것 같아요. EXO가 "내가 가진 기기를 묶어 쓰자"라면, Darkbloom은 "모르는 사람의 맥에 내 추론을 맡겨도 안전하게"가 목표인 셈이죠. 비전이 잘 구현된다면 "AI 계산을 위한 Airbnb" 같은 모델이 될 수도 있겠네요.

한국 개발자에게 주는 시사점

사내에 맥북이 많이 깔린 회사라면 한 번쯤 검토해볼 가치가 있어요. 사외 클라우드를 쓰지 않고 내부 개발자들의 맥을 묶어 코드 리뷰 봇이나 사내 RAG 검색을 돌릴 수 있다면, 보안팀 입장에서도 매력적인 선택지가 됩니다. 단, 진짜 프로덕션에 쓰려면 SLA(서비스 수준 협약), 노드 장애 대응, 모델 버전 관리 같은 운영 이슈를 별도로 풀어야 해요.

또 하나 눈여겨볼 점은, M 시리즈 맥의 추론 성능 자체가 점점 NVIDIA GPU의 비용 효율 우위를 흔들고 있다는 거예요. M4 Max 128GB 맥북 한 대가 70B 모델을 초당 10토큰 이상 뽑아낼 수 있다면, 작은 팀의 자체 추론 인프라로는 충분하거든요.