iPhone 17 Pro에서 4000억 파라미터 LLM을 돌렸다 — 모바일 AI의 새로운 이정표

스마트폰에서 400B 모델이 돌아간다고?

최근 ANEMLL 팀이 iPhone 17 Pro에서 400B(4000억) 파라미터 규모의 대규모 언어 모델을 실행하는 데모를 공개했습니다. 400B 파라미터라는 숫자가 어느 정도인지 감을 잡아보면, Meta의 Llama 3.1 405B가 서버급 GPU 여러 장이 필요한 모델이고, OpenAI의 GPT-4도 이 근처 규모로 추정됩니다. 이 정도 모델을 손바닥 위의 기기에서 실행했다는 건, 불과 1~2년 전까지만 해도 상상하기 어려운 일이었습니다.

물론 "실행"의 의미를 정확히 짚어볼 필요가 있습니다. 초당 수십 토큰의 빠른 추론이 아니라, 모델을 로드하고 실제로 텍스트를 생성하는 것 자체가 가능하다는 것을 보여준 기술 데모에 가깝습니다. 하지만 그 자체만으로도 기술적으로 의미 있는 진전입니다.

어떻게 가능한가: 양자화와 메모리 오프로딩

400B 모델의 원본 가중치는 FP16 기준으로 약 800GB의 메모리를 차지합니다. iPhone 17 Pro의 RAM은 12GB 정도로 예상되는데, 이 거대한 갭을 어떻게 메울 수 있을까요?

핵심은 극단적 양자화(quantization)와 메모리 오프로딩 기법의 조합입니다. 양자화란 모델의 가중치를 표현하는 비트 수를 줄이는 기법인데, 예를 들어 FP16(16비트)을 INT4(4비트)로 줄이면 모델 크기가 1/4로 줄어듭니다. 더 공격적으로 2비트나 1.5비트까지 줄이는 연구도 활발한데, 당연히 비트를 줄일수록 모델 품질이 떨어지는 트레이드오프가 있습니다.

하지만 양자화만으로는 부족합니다. 4비트로 양자화해도 400B 모델은 약 200GB에 달하기 때문입니다. 여기서 메모리 오프로딩이 등장합니다. 모델 전체를 RAM에 올리는 대신, SSD(플래시 스토리지)에 모델을 저장해두고 추론에 필요한 레이어만 그때그때 RAM으로 불러오는 방식입니다. Apple이 2023년 말 공개한 "LLM in a Flash" 논문이 바로 이 접근법을 다뤘는데, 플래시 메모리의 순차 읽기 속도를 최대한 활용해서 대형 모델을 제한된 DRAM에서 실행하는 전략입니다.

iPhone 17 Pro에 탑재될 것으로 보이는 A19 Pro 칩은 향상된 Neural Engine과 함께 더 빠른 메모리 대역폭을 제공할 것으로 예상됩니다. Apple Silicon의 통합 메모리 아키텍처(Unified Memory Architecture)도 큰 역할을 합니다. CPU, GPU, Neural Engine이 같은 메모리 풀을 공유하기 때문에 데이터를 복사하는 오버헤드 없이 각 프로세서가 효율적으로 협력할 수 있습니다.

ANEMLL 프로젝트란?

ANEMLL은 Apple Neural Engine을 활용해 LLM 추론을 최적화하는 오픈소스 프로젝트입니다. 대부분의 모바일 LLM 실행 프레임워크가 GPU 중심으로 동작하는 반면, ANEMLL은 Apple 기기에 탑재된 Neural Engine(ANE)을 적극적으로 활용합니다. ANE는 행렬 연산에 특화된 하드웨어 가속기로, 전력 효율이 GPU보다 훨씬 높습니다. 같은 연산을 수행하더라도 배터리 소모가 적다는 뜻이죠.

이 프로젝트가 주목받는 이유는, Apple이 ANE의 세부 사양을 공개하지 않아서 이를 직접 활용하는 것이 상당히 까다롭기 때문입니다. Core ML을 통한 간접적인 접근만 가능한 상황에서, ANE의 성능을 최대한 끌어내는 최적화를 이뤄냈다는 점이 기술적으로 인상적입니다.

업계 맥락: 온디바이스 AI 경쟁이 본격화되고 있다

모바일에서의 LLM 실행은 이제 모든 빅테크 기업의 핵심 전략이 되었습니다. Google은 Gemini Nano를 Pixel 기기에 탑재했고, Samsung은 Galaxy AI를 통해 온디바이스 모델을 활용하고 있으며, Qualcomm은 Snapdragon 칩에서의 AI 추론 성능을 매 세대 대폭 강화하고 있습니다.

그 중에서도 Apple은 독특한 위치에 있습니다. 칩 설계부터 OS, 프레임워크까지 수직 통합이 가능하기 때문에, 하드웨어-소프트웨어 공동 최적화의 잠재력이 가장 큽니다. Apple Intelligence가 이미 이 방향으로 나아가고 있고, 더 큰 모델을 온디바이스에서 실행할 수 있게 되면 프라이버시를 유지하면서도 강력한 AI 기능을 제공할 수 있습니다.

한편 llama.cpp, MLC LLM, ExecuTorch 같은 오픈소스 프로젝트들도 모바일 LLM 추론 최적화에 큰 기여를 하고 있습니다. 특히 llama.cpp의 Metal 백엔드는 Apple GPU를 활용한 추론에 널리 쓰이고 있죠. ANEMLL은 이 생태계에서 ANE라는 미개척 영역을 공략한 것입니다.

한국 개발자에게 주는 시사점

국내 모바일 앱 시장에서 iOS 점유율이 상당한 만큼, 온디바이스 LLM의 발전은 직접적인 영향을 미칩니다. 당장 400B 모델을 상용 앱에 쓸 수는 없겠지만, 이런 기술의 흐름이 보여주는 방향성은 명확합니다.

첫째, 프라이버시가 중요한 애플리케이션에서 서버 없이 AI 기능을 제공하는 것이 점점 현실적이 되고 있습니다. 의료, 금융, 법률 등 민감한 데이터를 다루는 앱에서 특히 의미가 크죠.

둘째, 오프라인 AI의 가능성이 열립니다. 네트워크 연결 없이도 고품질 텍스트 생성, 번역, 요약이 가능해지면 사용자 경험이 근본적으로 달라집니다.

셋째, 비용 구조의 변화입니다. API 호출당 비용을 지불하는 현재 모델에서, 사용자 기기에서 추론이 이루어지면 서버 비용이 대폭 절감됩니다. 스타트업에게는 특히 매력적인 변화입니다.

Core ML과 ANE 최적화에 관심이 있다면 ANEMLL 프로젝트의 GitHub을 살펴보시길 권합니다. Apple 생태계에서 AI 추론 최적화의 최전선을 경험할 수 있습니다.

정리

스마트폰에서 400B 모델을 돌리는 것은 아직 실용적인 속도에는 미치지 못하지만, 기술적 가능성 자체가 입증되었다는 점에서 중요한 이정표입니다. 모바일 하드웨어의 발전 속도를 감안하면, 2~3년 내에 수십B 규모의 고품질 모델을 실시간으로 온디바이스에서 실행하는 것이 일상이 될 수 있습니다.

여러분은 온디바이스 LLM이 실용화되면 가장 먼저 어떤 앱에 적용해보고 싶으신가요?

🔗 출처: Hacker News

이 글도 읽어보세요