TECH 으로 돌아가기
TECH HACKER NEWS 오늘 5분 읽기 41 READS

영상 못 보는 LLM에게 '눈'을 달아주는 오픈소스 — claude-real-video

영상 못 보는 LLM에게 '눈'을 달아주는 오픈소스 — claude-real-video

LLM이 텍스트도 읽고 이미지도 보는 시대가 됐지만, 의외로 영상은 아직 사각지대예요. Gemini처럼 영상을 직접 입력받는 모델도 있긴 한데, Claude를 포함한 대부분의 모델은 영상 파일을 그대로 넣을 수가 없거든요. 그런데 최근 GitHub에 올라온 claude-real-video라는 오픈소스가 재미있는 접근을 보여줬어요. 이름과 달리 Claude 전용이 아니라, '어떤 LLM이든' 영상을 볼 수 있게 만들어주는 파이프라인이에요.

어떻게 동작하냐면

비밀은 허무할 정도로 단순해요. 영상이라는 게 결국 '이미지의 연속 + 소리'잖아요. 그러니 영상을 LLM이 이미 이해할 수 있는 재료, 즉 이미지와 텍스트로 분해해서 넣어주면 된다는 거예요. 파이프라인은 대략 이렇게 흘러가요.

먼저 ffmpeg으로 영상에서 프레임을 뽑아내요. 여기서 중요한 게, 무작정 초당 30장씩 다 뽑는 게 아니라는 거예요. 그러면 토큰이 감당이 안 되거든요. 대신 장면 전환 감지(scene detection)라는 기법을 써요. 이게 뭐냐면, 연속된 프레임끼리 픽셀 차이를 비교해서 화면이 크게 바뀌는 순간만 골라내는 거예요. 화면이 거의 안 변하는 구간에서 100장을 뽑아봐야 다 같은 그림이니까, 의미 있는 장면당 한 장씩만 챙기는 거죠.

다음으로 오디오 트랙은 Whisper 같은 음성 인식 모델로 텍스트 자막으로 바꿔요. 그리고 마지막이 핵심인데, 뽑아낸 키프레임들과 자막을 타임스탬프 기준으로 한 줄에 꿰어서 하나의 타임라인 문서로 만들어요. '2분 30초: [이 화면] + 이때 이런 말이 나옴' 같은 식으로요. 이걸 이미지 입력을 지원하는 LLM에 넣으면, 모델 입장에서는 그림책에 자막을 붙여 읽는 셈이라 영상을 '본' 것처럼 내용을 파악하고 질문에 답할 수 있게 되는 거예요.

잘 맞는 영상, 안 맞는 영상

물론 공짜는 아니에요. 이미지 한 장이 토큰을 꽤 잡아먹기 때문에, 프레임을 얼마나 촘촘히 뽑느냐가 비용과 품질을 가르는 핵심 변수예요. 장면 전환이 빠른 액션 영상이나 스포츠 경기는 샘플링 사이사이의 움직임을 놓칠 수 있어서 불리하고요. 반대로 강의, 튜토리얼, 회의 녹화, 발표 영상처럼 화면 변화가 적고 말이 중심인 콘텐츠에는 아주 효과적이에요. 사실 우리가 업무에서 분석하고 싶은 영상 대부분이 후자에 속하죠.

업계 맥락에서 보면

Gemini 같은 네이티브 비디오 모델은 프레임 사이의 시간적 흐름까지 모델이 직접 학습해서 이해한다는 강점이 있어요. 대신 특정 모델에 묶이게 되죠. 이 프로젝트의 접근은 정반대예요. 전처리를 바깥에서 해주는 대신 모델을 자유롭게 고를 수 있고, 새 모델이 나오면 바로 갈아탈 수 있어요. 사실 프레임 추출과 음성 인식을 조합하는 아이디어 자체는 예전부터 개발자들이 각자 만들어 쓰던 방식인데, 이걸 잘 정리된 패키지로 묶어서 누구나 가져다 쓰게 했다는 데 의미가 있어요. 좋은 오픈소스가 하는 일이 원래 그런 거잖아요.

한국 개발자에게는

당장 만들어볼 수 있는 게 많아요. 유튜브 강의를 넣으면 챕터별 요약과 질의응답을 해주는 스터디 도구, 회의 녹화를 넣으면 결정 사항과 액션 아이템을 뽑아주는 사내 봇, 게임 플레이 영상 분석, 사내에 쌓여만 있는 세미나 영상을 검색 가능하게 만드는 프로젝트 같은 것들이요. ffmpeg과 Whisper라는 검증된 도구 위에 얹는 구조라 진입 장벽도 낮고, 파이프라인 코드를 읽어보는 것만으로 멀티모달 전처리를 배우는 좋은 교재가 돼요.

정리하면, 모델의 한계는 기다리는 게 아니라 전처리로 돌파할 수 있다는 걸 보여주는 프로젝트예요. 여러분이 영상 이해 기능을 붙여보고 싶었던 서비스가 있다면 어떤 건가요? 아이디어 나눠주세요.


🔗 출처: Hacker News

SOURCE · HACKER NEWS
원문 전체 보기 → https://github.com/HUANGCHIHHUNGLeo/claude-real-video
SHARE
처리 중...