TECH 으로 돌아가기
TECH HACKER NEWS 오늘 6분 읽기 45 READS

애플이 꽁꽁 숨겨온 'Neural Engine', 그 정체를 파헤치다

애플이 꽁꽁 숨겨온 'Neural Engine', 그 정체를 파헤치다

도입

아이폰이나 맥에서 사진 속 사람 얼굴을 알아보고, 받아쓰기가 즉각 되고, 사진 보정이 순식간에 끝나는 거... 이게 다 칩 안에 숨어 있는 “뉴럴 엔진(Apple Neural Engine, ANE)” 덕분이에요. ANE가 뭐냐면, CPU나 GPU와는 별개로 칩 안에 따로 박혀 있는 “AI 전용 가속기”예요. 그런데 애플은 이 ANE의 내부 구조나 프로그래밍 방법을 거의 공개하지 않았어요. 개발자는 Core ML이라는 높은 수준의 API로만 간접적으로 쓸 수 있었죠. 그래서 ANE는 오랫동안 “성능은 좋은데 속을 모르는 블랙박스”였는데, 이번에 그 아키텍처와 프로그래밍, 성능을 체계적으로 정리한 연구가 나왔어요.

ANE가 왜 따로 있냐면요

CPU는 뭐든 다 잘하는 만능 일꾼이지만, AI 계산(특히 행렬 곱셈이랑 컨볼루션)에는 비효율적이에요. GPU는 병렬 계산을 잘하지만 전력을 많이 먹고요. 모바일 기기는 배터리가 생명이잖아요? 그래서 애플은 “딱 신경망 추론에만 특화된, 전력 대비 효율이 미친 칩”을 따로 넣었어요. 이게 NPU(Neural Processing Unit)고, 애플 버전이 ANE인 거죠.

ANE는 곱셈-누산(MAC, 곱하고 더하기) 연산을 어마어마하게 병렬로 처리하도록 설계됐어요. 최신 칩에선 초당 수십조 번(TOPS, Tera Operations Per Second 단위로 표현) 연산을 해내는데, 같은 일을 GPU로 했을 때보다 전력을 훨씬 적게 써요. 대신 제약이 많아요. 주로 16비트 부동소수점에 최적화돼 있고, 데이터를 ANE가 좋아하는 특정한 모양(텐서 레이아웃)으로 재배치해줘야 제 성능이 나오거든요. 그래서 “내 모델이 ANE에서 돌까, 아니면 GPU/CPU로 떨어질까”가 개발자 입장에선 늘 신경 쓰이는 부분이었어요.

블랙박스를 여는 사람들

애플이 공식 문서를 안 주니까, 사람들이 직접 ANE를 뜯어봤어요. tinygrad를 만든 조지 호츠 팀이 ANE에 직접 명령을 내리는 저수준 인터페이스를 역공학으로 알아내기도 했고, 여러 연구자가 Core ML이 모델을 ANE용으로 어떻게 변환하는지 추적했죠. 이번 연구는 그런 흐름의 연장선에서 ANE의 내부 동작, 어떤 연산이 잘 돌고 어떤 게 안 돌아가는지, 실제 성능 한계가 어디인지를 정리한 거예요. “이 연산자는 ANE로 가는데 저건 안 가더라” 같은 실전 지식이 정리되면, 모델을 ANE 친화적으로 설계하는 데 큰 도움이 돼요.

업계 맥락

NPU는 이제 애플만의 것이 아니에요. 퀄컴 스냅드래곤의 Hexagon, 구글 텐서 칩, 인텔·AMD의 노트북용 NPU까지, “온디바이스 AI”를 위한 전용 가속기가 표준이 되고 있어요. 온디바이스 AI가 뭐냐면, 데이터를 클라우드 서버로 안 보내고 기기 안에서 바로 AI를 돌리는 거예요. 개인정보가 밖으로 안 나가고, 인터넷 없이도 되고, 응답이 빠르다는 장점이 있죠. 애플이 ANE에 그렇게 공을 들이는 것도 “프라이버시 = 온디바이스 AI” 전략 때문이에요. 다만 각 회사가 자기만의 폐쇄적인 NPU를 만들다 보니, 개발자 입장에선 “기기마다 최적화를 따로 해야 하는” 파편화 문제가 생겨요. ANE의 폐쇄성은 그 대표적인 사례고요.

한국 개발자에게

온디바이스 AI는 한국에서도 점점 중요해지고 있어요. 갤럭시의 온디바이스 번역이나 사진 보정 같은 기능이 다 NPU 위에서 돌거든요. iOS 앱에 AI 기능을 넣는다면 Core ML로 모델을 변환할 때 “이게 정말 ANE에서 도는지” 확인하는 습관이 중요해요. ANE에서 안 돌면 GPU/CPU로 떨어지면서 발열과 배터리 소모가 확 늘거든요. ANE가 좋아하는 연산자, 좋아하는 텐서 모양을 알아두면 같은 모델도 훨씬 빠르고 시원하게 돌릴 수 있어요. 모바일 ML을 하는 분이라면 이런 저수준 지식이 곧 경쟁력이에요.

마무리

한 줄 정리: ANE는 “전력 효율 최고의 AI 가속기지만, 속을 알아야 제대로 쓸 수 있는 블랙박스”예요. 여러분은 온디바이스 AI가 클라우드 AI를 얼마나 대체할 거라고 보세요? 아니면 결국 무거운 모델은 서버, 가벼운 건 기기로 나뉘는 하이브리드가 정답일까요?


🔗 출처: Hacker News

SOURCE · HACKER NEWS
원문 전체 보기 → https://arxiv.org/abs/2606.22283
SHARE
처리 중...