TECH 으로 돌아가기
TECH HACKER NEWS 오늘 2분 읽기 43 READS

넷플릭스는 왜 배치 컴퓨팅을 Kueue로 갈아탔나

넷플릭스는 머신러닝 학습, 데이터 처리 등 방대한 배치 워크로드를 돌립니다. 기존에는 자체 제작한 스케줄링 계층으로 쿠버네티스 위에서 작업을 관리했지만, 코드가 복잡해지고 유지보수 부담이 커졌습니다. 핵심 과제는 한정된 GPU·CPU 자원을 여러 팀이 공정하게 나눠 쓰면서도 놀리는 자원 없이 꽉 채우는 것이었죠.

넷플릭스는 이를 CNCF 오픈소스인 Kueue로 대체했습니다. Kueue는 쿠버네티스 네이티브 잡 큐잉 시스템으로, 자원이 부족하면 작업을 대기시켰다가 여유가 생기면 실행하는 게이팅 방식을 씁니다. 팀별 자원 할당량(quota)을 보장하되, 남는 자원은 다른 팀이 빌려 쓰는 코호트 기반 공정 분배가 핵심입니다.

시사점은 분명합니다. 직접 만든 인프라를 무작정 고수하기보다, 성숙한 오픈소스로 옮겨 운영 부담을 줄이고 커뮤니티 발전의 혜택을 누리는 전략입니다. 대규모 배치·ML 플랫폼을 고민하는 엔지니어라면 Kueue를 검토할 만합니다.

SOURCE · HACKER NEWS
원문 전체 보기 → https://netflixtechblog.com/how-netflix-simplified-batch-com...
SHARE
처리 중...