Hacker News 2026.04.06 135

GPU, TPU, NPU 상태를 한번에 — zml-smi가 nvidia-smi를 대체할 수 있을까

nvidia-smi만으로는 부족한 시대

ML 엔지니어라면 nvidia-smi를 안 써본 분이 없을 거예요. GPU 메모리 사용량 확인하고, 어떤 프로세스가 GPU를 잡고 있는지 보고, 온도 체크하고. 그런데 요즘 AI 하드웨어가 NVIDIA GPU만 있는 게 아니잖아요. 구글의 TPU, 애플 실리콘의 Neural Engine, AMD GPU, 인텔의 가우디(Gaudi) 같은 NPU(신경망 처리 장치)까지. 하드웨어마다 모니터링 도구가 다 다르니까 통합해서 볼 수 있는 도구가 절실했는데요, zml-smi가 바로 그 문제를 해결하려고 나왔어요.

zml-smi가 뭔가요

zml-smi는 ZML이라는 AI 인프라 팀이 만든 오픈소스 모니터링 도구예요. 이름에서 짐작할 수 있듯이 nvidia-smi의 인터페이스를 차용했는데요, 핵심은 "유니버설"이라는 점이에요. NVIDIA GPU는 물론이고 AMD GPU, 구글 TPU, 그리고 다양한 NPU 가속기까지 하나의 통일된 인터페이스로 상태를 조회할 수 있어요.

이게 뭐냐면, 예를 들어 서버 하나에 NVIDIA A100이 4장, AMD MI300이 2장 꽂혀 있다고 해볼게요. 지금까지는 nvidia-smi로 NVIDIA 카드만 보고, AMD 쪽은 rocm-smi라는 별도 도구를 써야 했어요. zml-smi는 이걸 한 커맨드로 전부 보여주는 거예요. GPU 사용률, 메모리 점유, 온도, 전력 소비 같은 핵심 지표를 벤더에 관계없이 통일된 포맷으로 출력해줘요.

기술적으로는 각 하드웨어 벤더의 저수준 API(NVIDIA의 NVML, AMD의 ROCm, 인텔의 Level Zero 등)를 추상화 레이어로 감싸는 방식이에요. 마치 데이터베이스 드라이버가 MySQL이든 PostgreSQL이든 같은 SQL 인터페이스로 접근할 수 있게 해주는 것과 비슷한 개념이죠.

왜 지금 이런 도구가 필요한가

최근 AI 인프라 업계의 가장 큰 흐름 중 하나가 "NVIDIA 독점 탈피"예요. NVIDIA GPU가 여전히 압도적이긴 하지만, 가격과 공급 문제 때문에 많은 기업들이 대안을 찾고 있거든요. AMD MI300X가 가격 대비 성능으로 주목받고 있고, 구글은 자체 TPU v5를 클라우드에서 적극적으로 밀고 있어요. AWS도 자체 설계한 Trainium/Inferentia 칩을 내놓고 있고요.

이런 상황에서 여러 종류의 가속기를 동시에 운영하는 이기종(heterogeneous) 클러스터가 점점 흔해지고 있어요. 모니터링 도구도 당연히 이 현실을 따라가야 하는 거죠. 기존에도 Prometheus + Grafana 조합으로 커스텀 메트릭을 수집하는 방법이 있긴 했는데, 설정이 복잡하고 각 벤더별로 익스포터를 따로 구성해야 하는 번거로움이 있었어요. zml-smi는 그걸 CLI 하나로 단순화한 거예요.

경쟁 도구로는 nvtop이 있는데요, nvtop은 htop처럼 TUI(터미널 UI) 기반의 실시간 모니터링 도구예요. AMD와 인텔도 어느 정도 지원하지만 TPU나 커스텀 NPU까지 커버하진 못해요. zml-smi는 더 넓은 범위의 하드웨어를 목표로 하고 있다는 점에서 차별화돼요.

한국 개발자에게 주는 시사점

MLOps나 AI 인프라를 다루는 분이라면 한번 설치해서 테스트해볼 가치가 있어요. 특히 클라우드에서 다양한 인스턴스 타입을 번갈아 쓰는 경우(예: AWS에서 NVIDIA GPU 인스턴스와 Inferentia 인스턴스를 같이 쓰는 경우)에 모니터링 스크립트를 통일할 수 있으니까요.

아직 초기 단계 프로젝트라 프로덕션에 바로 도입하기보다는 개발 환경에서 먼저 써보면서 지원 범위와 안정성을 확인하는 게 좋을 것 같아요. 그래도 AI 하드웨어가 다양해지는 시대에 이런 통합 도구의 필요성 자체는 분명하니까, 방향성은 주목할 만해요.