AMD가 만든 로컬 LLM 서버 'Lemonade' — GPU와 NPU를 동시에 쓴다고요?

AMD가 로컬 AI 시장에 본격적으로 뛰어들었어요

AI를 내 컴퓨터에서 직접 돌리고 싶은데, NVIDIA GPU가 없으면 좀 막막했잖아요. 그런 분들에게 반가운 소식이에요. AMD가 'Lemonade'라는 오픈소스 로컬 LLM 서버를 공개했거든요. 이름처럼 상큼한 이 프로젝트의 핵심은, AMD의 GPU(Radeon)뿐만 아니라 NPU까지 활용해서 로컬에서 LLM을 빠르게 돌릴 수 있게 해준다는 거예요.

NPU가 뭐냐면, Neural Processing Unit의 약자로, AI 연산에 특화된 별도의 프로세서예요. 최근 출시되는 노트북용 CPU들—AMD의 Ryzen AI 시리즈나 Intel의 Core Ultra 시리즈—에는 이 NPU가 내장되어 있어요. 그동안은 이 NPU가 있어도 실제로 활용할 수 있는 소프트웨어가 별로 없어서 "있는데 안 쓰는 부품" 취급을 받았거든요. Lemonade는 바로 이 NPU를 제대로 활용하겠다는 거예요.

어떻게 동작하나요?

Lemonade 서버는 OpenAI 호환 API를 제공해요. 이게 무슨 말이냐면, 기존에 OpenAI API를 써서 만든 코드가 있다면 URL만 로컬 서버 주소로 바꿔주면 거의 그대로 동작한다는 거예요. 개발자 입장에서는 기존 코드를 거의 수정하지 않고도 로컬 LLM으로 전환할 수 있어서 정말 편리하죠.

아키텍처를 좀 더 들여다보면, Lemonade는 하이브리드 실행 전략을 쓰고 있어요. 모델의 일부 레이어는 GPU에서, 일부는 NPU에서 처리하는 방식인데요, 이렇게 하면 GPU 메모리(VRAM)가 부족한 상황에서도 더 큰 모델을 돌릴 수 있어요. 비유하자면, 큰 짐을 혼자 들기 힘들 때 친구한테 나눠서 들자고 하는 거랑 비슷해요. GPU라는 친구와 NPU라는 친구가 일을 나눠서 하는 거죠.

지원하는 모델도 꽤 다양해요. Llama, Mistral, Phi 같은 인기 오픈소스 모델들을 바로 올려서 쓸 수 있고요, GGUF 포맷의 양자화된 모델도 지원한다고 해요. 양자화가 뭐냐면, AI 모델의 숫자 정밀도를 살짝 낮춰서 모델 크기와 메모리 사용량을 확 줄이는 기법이에요. 32비트 숫자를 4비트로 줄이면 모델 크기가 거의 8분의 1로 줄어드는데, 성능 손실은 생각보다 크지 않거든요.

성능 면에서는 AMD Radeon RX 7900 XTX 기준으로 꽤 인상적인 토큰 생성 속도를 보여준다고 하는데요, 특히 NPU를 함께 활용했을 때 GPU만 쓸 때보다 추론 속도가 개선되는 케이스가 있다고 해요. 물론 모든 상황에서 그런 건 아니고, 모델 크기와 배치 사이즈에 따라 달라질 수 있어요.

Ollama, llama.cpp와 뭐가 다른가요?

로컬 LLM 서버하면 이미 Ollama나 llama.cpp 같은 훌륭한 도구들이 있잖아요. 그래서 "또 하나 더?"라는 생각이 들 수 있는데요, Lemonade의 차별점은 명확해요.

Ollama와 llama.cpp는 주로 CPU와 NVIDIA GPU에 최적화되어 있어요. AMD GPU도 ROCm을 통해 지원하긴 하지만, 설정이 까다롭고 성능도 NVIDIA만큼 나오지 않는 경우가 많았거든요. Lemonade는 AMD 하드웨어에 네이티브로 최적화되어 있어서, AMD GPU 사용자라면 별도의 복잡한 설정 없이 바로 좋은 성능을 낼 수 있어요.

그리고 NPU 활용은 Lemonade만의 독보적인 기능이에요. 현재 Ollama나 llama.cpp에서는 NPU를 직접 활용하는 기능이 없거든요. 최신 AMD Ryzen AI 노트북을 쓰고 있다면, 노트북의 숨겨진 잠재력을 끌어낼 수 있는 거예요.

더 넓은 시야에서 보면, 이건 AMD의 AI 소프트웨어 생태계 전략의 일부예요. NVIDIA가 CUDA라는 강력한 소프트웨어 생태계로 AI 시장을 지배하고 있는데, AMD는 ROCm만으로는 이 격차를 좁히기 어렵다는 걸 알고 있거든요. 그래서 Lemonade 같은 사용자 친화적인 도구를 직접 만들어서 "AMD 하드웨어에서도 AI 쉽게 돌릴 수 있어요"라는 메시지를 주고 있는 거예요.

한국 개발자에게 주는 시사점

AMD GPU가 달린 데스크톱이나 Ryzen AI 노트북을 쓰고 계신 분이라면 당장 설치해서 써볼 수 있어요. 오픈소스이고 설치도 간단하다고 하니, 주말 프로젝트로 로컬 LLM 서버를 띄워보는 것도 재밌을 거예요.

실무적으로는, 사내에서 데이터 보안 때문에 외부 API를 못 쓰는 환경에서 로컬 LLM을 운영해야 하는 경우가 점점 늘고 있잖아요. 이때 서버 GPU로 NVIDIA만 고려했다면, AMD도 옵션에 넣어볼 수 있게 된 거예요. AMD GPU가 같은 성능 대비 가격이 저렴한 경우가 많으니까, 비용 절감 효과도 기대해볼 수 있겠죠.

그리고 NPU 활용이라는 트렌드 자체에 주목할 필요가 있어요. 앞으로 노트북이나 데스크톱에서 AI를 돌리는 게 점점 보편화될 텐데, NPU를 활용한 온디바이스 AI는 그 핵심이 될 거거든요. 지금부터 관심을 갖고 경험을 쌓아두면 나중에 큰 자산이 될 수 있어요.