Hacker News 2026.04.07 22

넷플릭스가 공개한 VOID: 영상 속 물체를 깔끔하게 지워주는 AI 모델

영상 편집의 오래된 난제, '물체 지우기'

사진에서 원하지 않는 물체를 지우는 건 이제 꽤 익숙한 기술이에요. 포토샵의 '내용 인식 채우기'나 스마트폰의 '매직 이레이저' 같은 기능 한 번쯤은 써보셨을 거예요. 그런데 이걸 영상에서 하려면 이야기가 완전히 달라지거든요. 사진은 한 장만 잘 채우면 되지만, 영상은 수십 프레임이 자연스럽게 이어져야 하니까요. 지운 자리를 매 프레임마다 그럴듯하게 채워야 하고, 카메라가 움직이면 배경도 일관되게 바뀌어야 해요.

넷플릭스가 바로 이 문제를 풀기 위해 VOID(Video Object and Interaction Deletion)라는 AI 모델을 오픈소스로 공개했어요.

VOID가 하는 일, 그리고 작동 방식

VOID는 이름 그대로 영상 속 물체를 '삭제'하는 모델이에요. 단순히 물체만 지우는 게 아니라, 그 물체가 주변 환경과 상호작용하면서 남긴 흔적까지 함께 제거한다는 게 핵심이에요. 예를 들어 사람이 소파에 앉아 있는 영상에서 사람을 지우면, 소파 쿠션이 눌려 있는 모양까지 원래대로 복원해 준다는 뜻이에요. 이걸 'Interaction Deletion'이라고 부르는 거죠.

기술적으로 보면 VOID는 비디오 인페인팅(video inpainting) 계열의 모델인데요, 이게 뭐냐면 영상에서 마스크로 지정한 영역을 주변 맥락에 맞게 자동으로 채워 넣는 기술이에요. 기존의 비디오 인페인팅 모델들은 보통 물체가 차지하고 있던 영역만 배경으로 채우는 데 집중했어요. 하지만 VOID는 물체가 환경에 남긴 영향, 예를 들어 그림자, 반사, 물리적 변형 같은 것들까지 인식하고 복원하는 단계까지 나아갔어요.

넷플릭스가 이런 모델을 만든 배경을 생각해 보면 꽤 자연스러워요. 영상 콘텐츠를 만들 때 후반 작업에서 특정 물체를 제거해야 하는 상황은 정말 자주 생기거든요. 촬영 현장에 실수로 들어간 장비, 로고가 보이는 소품, 혹은 편집 과정에서 스토리라인이 바뀌면서 불필요해진 요소 등이요. 지금까지는 이런 작업을 VFX 아티스트가 프레임 단위로 수작업하는 경우가 많았는데, VOID 같은 모델이 이 과정을 크게 자동화할 수 있는 거예요.

비슷한 기술들과 비교해 보면

비디오 인페인팅 분야에서는 이미 여러 연구가 있었어요. 대표적으로 Meta의 ProPainter, 그리고 학계에서 나온 E2FGVI 같은 모델들이 있죠. 이 모델들도 영상에서 물체를 제거하고 배경을 채우는 데 상당히 좋은 성능을 보여줬어요.

하지만 VOID가 차별화되는 지점은 앞서 말한 상호작용 삭제에요. 기존 모델들은 "물체를 지우고 빈 자리를 채운다"에 머물렀다면, VOID는 "물체가 존재했기 때문에 생긴 모든 시각적 영향을 되돌린다"는 더 높은 목표를 세운 거예요. 실제 프로덕션 환경에서는 이 차이가 크게 느껴질 수 있어요. 물체만 지웠는데 그림자가 남아 있으면 바로 티가 나거든요.

또 하나 주목할 점은 이게 넷플릭스라는 프로덕션 회사에서 나왔다는 거예요. 학계 연구와 달리, 실제 콘텐츠 제작 파이프라인에서 쓸 수 있는 수준의 품질과 안정성을 목표로 개발되었을 가능성이 높아요. GitHub에 오픈소스로 공개된 만큼, 모델 아키텍처와 가중치를 직접 확인하고 실험해 볼 수 있어요.

한국 개발자에게 주는 시사점

영상 편집 도구를 만들고 있거나, 미디어 처리 파이프라인을 다루는 분이라면 VOID를 꼭 살펴볼 만해요. 특히 한국은 영상 콘텐츠 산업이 큰 만큼, 후반 작업 자동화에 대한 수요가 계속 늘어나고 있거든요. 웹드라마, 유튜브 콘텐츠, 광고 영상 등에서 간단한 물체 제거 작업을 자동화하는 데 활용할 수 있을 거예요.

CV(컴퓨터 비전) 분야를 공부하고 있는 분이라면, 비디오 인페인팅에서 '상호작용'이라는 개념을 어떻게 모델링했는지 논문과 코드를 뜯어보는 것도 좋은 학습 자료가 될 거예요. 단순 배경 채우기를 넘어서 물리적 맥락까지 이해하는 모델은 앞으로 다양한 응용 분야에서 점점 더 중요해질 테니까요.