Hacker News 2026.05.17 39

#AI #LLM #GitHub #오픈소스

엔비디아가 풀어버린 26억 파라미터 월드모델, SANA-WM의 정체

"1분짜리 720p 영상을 만드는 26억 파라미터 모델"이 무슨 뜻일까

요즘 AI 영상 생성 모델 이름을 들어보면 대부분 OpenAI Sora, Google Veo, Runway Gen-3 같은 거대 기업의 폐쇄형 모델이 떠오르거든요. 그런데 이번에 엔비디아 연구소(NVlabs)가 좀 흥미로운 걸 공개했어요. SANA-WM이라는 모델인데, 이름 뒤의 "WM"이 바로 World Model, 즉 "월드 모델"의 약자예요.

월드 모델이라는 게 뭐냐면, 단순히 "예쁜 영상을 만드는 모델"을 넘어서 이 세상이 어떻게 움직이는지 학습한 모델이에요. 공이 떨어지면 어떻게 튀어 오를지, 사람이 걷는다면 발이 어떻게 움직일지 같은 물리적인 인과관계를 내부적으로 이해하고 영상을 생성하죠. 단순히 픽셀을 예쁘게 그리는 게 아니라 "세상의 규칙"을 흉내 내는 게 핵심이에요.

기존 영상 생성 모델 대부분은 텍스트 프롬프트를 넣으면 짧은 클립 정도만 만들어주는 식이었어요. Sora가 1분짜리 영상을 만들어내며 화제였지만 폐쇄형이라 누구도 내부를 볼 수가 없었죠. SANA-WM은 그에 비하면 모델 크기가 2.6B(26억) 파라미터로 상대적으로 작은 편이에요. 요즘 LLM에 비하면 정말 작은 크기인데, 이 크기로 1분 720p 영상을 뽑아낸다는 건 효율성 측면에서 의미가 굉장히 커요.

어떻게 작은 모델로 긴 영상을 만들까

비결은 SANA-WM이 기반으로 삼은 SANA 아키텍처에 있어요. SANA는 원래 엔비디아가 공개한 효율적인 이미지 생성 모델인데, 일반적인 디퓨전 모델보다 훨씬 빠르게 고해상도 이미지를 만들 수 있도록 설계되었거든요. 핵심은 Deep Compression Autoencoder라고 해서, 영상이나 이미지를 굉장히 압축된 잠재 공간(latent space)에서 처리한다는 거예요.

쉽게 말하면, 720p 영상을 픽셀 단위 그대로 다루는 게 아니라 한 번 압축해서 정보 밀도가 높은 표현으로 바꾼 다음 그 위에서 디퓨전 과정을 돌리는 거예요. 그러면 계산량이 확 줄어들죠. 거기에 더해 SANA-WM은 시간 축까지 다뤄야 하니까, 영상 프레임들을 자기회귀적(autoregressive)으로 이어 붙이는 방식과 디퓨전을 함께 사용해요.

또 한 가지 흥미로운 점은 카메라 컨트롤과 액션 컨트롤이 가능하다는 거예요. 영상을 그냥 만드는 게 아니라, "카메라를 왼쪽으로 패닝해줘", "이 캐릭터가 점프하게 해줘" 같은 명령을 받아서 영상을 조작할 수 있어요. 게임이나 시뮬레이션처럼 인터랙티브한 환경에서 월드 모델을 쓰려고 할 때 굉장히 중요한 기능이에요.

업계 흐름에서의 위치

지금 AI 영상 생성 분야는 두 갈래로 나뉘고 있어요. 하나는 OpenAI Sora나 Google Veo처럼 거대 폐쇄형 모델로 화질을 끝까지 밀어붙이는 흐름이고, 다른 하나는 오픈소스 진영에서 적당한 크기로 누구나 돌릴 수 있게 만드는 흐름이에요. 후자 쪽에는 Open-Sora, HunyuanVideo, Mochi 같은 모델들이 이미 나와 있죠.

SANA-WM은 후자에 가까운데, 그중에서도 "월드 모델"이라는 정체성을 명확히 한 게 특징이에요. 단순 영상 생성이 아니라 메타의 V-JEPA, 구글 딥마인드의 Genie 같은 흐름, 즉 "AI가 세상을 시뮬레이션한다"는 큰 그림 안에 자리 잡고 있죠. 특히 자율주행이나 로보틱스 쪽에서 월드 모델은 안전한 시뮬레이션 환경을 만드는 데 핵심이에요. 엔비디아가 자율주행과 로보틱스에 강한 회사라는 걸 생각하면, 이 방향은 매우 자연스러워 보여요.

한국 개발자에게 주는 의미

당장 회사 서비스에 SANA-WM을 적용할 일은 많지 않을 거예요. 영상 생성은 여전히 GPU 비용이 비싸고, 1분짜리 영상이라도 추론에 꽤 시간이 걸리거든요. 그런데 연구 목적이나 사이드 프로젝트로는 정말 매력적이에요. 2.6B는 H100 한 장, 잘하면 A100 한 장으로도 파인튜닝을 시도해볼 만한 크기거든요.

특히 게임 개발자나 시뮬레이션을 만드는 분들이라면, "월드 모델로 학습 데이터 만들기" 같은 응용을 한번 고민해볼 만해요. 로보틱스를 하시는 분들은 이걸 시뮬레이터 대용으로 쓰는 실험도 해볼 수 있고요. 그리고 무엇보다, 이런 모델의 코드를 직접 뜯어보면서 "긴 영상을 만들 때 메모리를 어떻게 관리하는가" 같은 노하우를 배울 수 있다는 게 큰 자산이에요.

정리하면

SANA-WM은 "오픈소스 + 작은 크기 + 긴 영상 + 월드 모델"이라는 네 가지 키워드를 한데 묶은 의미 있는 릴리스예요. Sora가 보여준 환상은 거대 기업의 폐쇄형 모델이었지만, 오픈소스 진영도 빠르게 따라붙고 있다는 신호죠. 여러분은 이런 월드 모델이 게임이나 로보틱스 외에 또 어떤 분야에서 쓰일 수 있을 것 같으세요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News Tailwind를 떠나며: CSS를 다시 배우기로 한 어느 개발자의 고백

Hacker News 전 국민에게 ChatGPT Plus를? OpenAI와 몰타 정부의 흥미로운 실험

원문 보기 (Hacker News)

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기

비전공자도 6개월이면 첫 수익
20년 경력 개발자 직강
자동화 프로그램 + 소스코드 제공

이전 글 Qwen3 추론 속도 7.8배? Orthrus가 보여준 'speculative decoding'의 진화 다음 글 20년 전 SF '액셀러란도'가 지금 다시 책상 위에 올라오는 이유

목록으로

로그인

추가 정보 입력

회원가입

비밀번호 찾기

엔비디아가 풀어버린 26억 파라미터 월드모델, SANA-WM의 정체

"1분짜리 720p 영상을 만드는 26억 파라미터 모델"이 무슨 뜻일까

어떻게 작은 모델로 긴 영상을 만들까

업계 흐름에서의 위치

한국 개발자에게 주는 의미

정리하면

AI 도구, 직접 활용해보세요

매일 AI·개발 뉴스를 받아보세요

관련 뉴스

Tailwind를 떠나며: CSS를 다시 배우기로 한 어느 개발자의 고백

전 국민에게 ChatGPT Plus를? OpenAI와 몰타 정부의 흥미로운 실험

Windows 95에서 리눅스를 돌린다고? WSL9x라는 황당하고도 멋진 프로젝트

2U 서버 한 대에 10PB? Kioxia와 Dell이 만든 괴물 스토리지의 정체

스토리 포인트는 왜 항상 들쭉날쭉할까: 측정 단위가 아닌 '느낌'의 함정

이모지가 깨질 때 진짜로 일어나는 일, '잘못된 서러게이트 쌍' 이야기

잠깐, 이런 뉴스도 있어요!