TECH 으로 돌아가기
TECH GITHUB 오늘 12분 읽기 53 READS

[심층분석] 프리미어 대신 Claude Code로 영상을 편집한다고? video-use가 보여주는 'AI 스킬'의 진짜 의미

[심층분석] 프리미어 대신 Claude Code로 영상을 편집한다고? video-use가 보여주는 'AI 스킬'의 진짜 의미

코딩 에이전트가 갑자기 영상 편집을 한다고요?

요즘 Claude Code 같은 AI 코딩 에이전트(개발 작업을 대신 해주는 AI 도구) 한 번쯤 써보셨죠? 코드 짜주고, 버그 잡아주고, 터미널 명령어도 대신 실행해주잖아요. 그런데 이 도구가 "코딩"만 하는 게 아니라는 걸 보여주는 흥미로운 프로젝트가 등장했어요. 바로 video-use입니다.

이걸 만든 팀이 좀 재밌는데요. browser-use라는 오픈소스로 이미 알려진 팀이에요. browser-use는 AI가 사람처럼 브라우저를 직접 조작하게 해주는 도구거든요. 버튼 클릭하고, 입력창 채우고, 스크롤하고... 사람이 마우스로 하던 걸 AI가 하게 만든 거죠. 이 팀이 이번엔 같은 철학을 영상 편집에 가져왔어요. 그래서 이름도 video-use예요.

쓰는 방법이 황당할 정도로 간단해요. 원본 영상 파일들을 폴더에 넣고 → Claude Code랑 대화하고 → final.mp4를 받는다. 끝이에요. "이 클립들 런칭 영상으로 편집해줘" 한마디 하면, 에이전트가 소스를 쭉 살펴보고, 편집 전략을 제안하고, 당신이 OK하면 완성된 영상을 옆에 뚝딱 만들어 놓는 거죠.

이게 왜 흥미롭냐면요. 영상 편집은 지금까지 프리미어 프로, 파이널 컷, 다빈치 리졸브 같은 무겁고 비싼 GUI 프로그램의 영역이었어요. 타임라인에 클립 끌어다 놓고, 가위질하고, 색 보정 패널 만지고... 배우는 데만 몇 주씩 걸리잖아요. 그런데 video-use는 그 모든 걸 "말로 시키는" 방식으로 바꿔버린 거예요.

안을 뜯어보면 의외로 단순합니다

많은 분들이 "그럼 엄청 복잡한 AI 영상 모델이 들어있겠네?"라고 생각할 텐데, 전혀 아니에요. video-use의 정체를 알면 좀 허무할 수도 있어요. 이건 사실 마크다운 문서 몇 개와 셸 스크립트 모음이거든요. 저장소를 열어보면 SKILL.md, install.md, 그리고 helpers/ 폴더 정도가 핵심이에요.

이게 바로 요즘 뜨고 있는 '스킬(Skill)'이라는 패턴이에요. 스킬이 뭐냐면, 쉽게 말해서 에이전트한테 건네주는 '사용 설명서 + 도구상자'라고 보면 돼요. 사람한테 "이 기계 쓰는 법은 여기 적혀 있고, 필요한 공구는 이 서랍에 있어"라고 알려주는 것과 똑같아요. AI가 그 설명서를 읽고, 서랍에서 도구를 꺼내 쓰는 거죠.

그럼 진짜로 영상을 자르고 붙이는 건 누가 하느냐? 바로 ffmpeg예요. ffmpeg는 영상·오디오를 다루는 아주 오래된 커맨드라인 도구인데, 영상계의 '스위스 군용 칼'이라고 불려요. 자르기, 합치기, 인코딩, 색 보정까지 안 되는 게 없거든요. 다만 명령어가 외계어처럼 생겨서 사람이 직접 쓰긴 힘들었어요. video-use의 진짜 똑똑함은, 그 어려운 ffmpeg 명령어를 AI가 알아서 조립해서 실행하게 만든 데 있어요.

편집 파이프라인이 돌아가는 순서

영상이 들어오면 이런 단계를 거쳐요. 하나씩 쉽게 풀어볼게요.

정리하면 video-use의 포지셔닝은 명확해요. 자연어 + 오픈소스 + 조합 가능 + 에이전트 주도. 프리셋이나 메뉴 없이, 토킹헤드든 여행 영상이든 인터뷰든 어떤 콘텐츠에도 대응한다는 게 강점이에요.

한국 개발자에게 주는 진짜 교훈

구체적인 활용 시나리오부터 볼게요.

컨퍼런스 발표·개발 튜토리얼 영상을 자주 만드는 분이라면 딱이에요. 화면 녹화하면서 "어... 그러니까..." 하고 더듬은 부분 잘라내는 게 제일 짜증나잖아요. 그걸 자동으로 처리해줘요. 1인 유튜버나 사이드 프로젝트 홍보 영상을 만드는 개발자한테도 유용하고요.

그런데 사실 더 큰 교훈은 따로 있어요. '스킬 패턴' 그 자체를 배우는 거예요. video-use가 마크다운 문서 + 헬퍼 스크립트만으로 만들어졌다는 건, 여러분도 똑같은 방식으로 나만의 에이전트 스킬을 만들 수 있다는 뜻이거든요. 예를 들어 "우리 회사 PDF 보고서를 정해진 양식으로 변환하는 스킬", "로그 파일을 분석해서 리포트 뽑는 스킬"을 똑같은 패턴으로 만들 수 있어요. 거대한 AI 모델을 학습시킬 필요 없이, 설명서를 잘 쓰고 도구를 잘 갖춰주는 것만으로요.

도입할 때 고려할 점도 있어요. ElevenLabs API 키(음성 관련 외부 서비스)가 필요하고, ffmpeg 설치도 해야 해요. 그리고 외부 API를 쓰니까 회사 내부 민감한 영상을 다룰 땐 보안 정책을 꼭 확인하세요.

학습 로드맵을 제안하자면 이래요. 첫째, ffmpeg 기본 명령어를 조금 익혀두세요. 영상 자르기·합치기 정도만 알아도 AI가 짠 명령어를 이해하고 검증할 수 있어요. 둘째, Claude Code 같은 에이전트의 기본 사용법에 익숙해지세요. 셋째, video-use의 SKILL.md를 직접 열어서 '잘 쓴 스킬 문서는 어떻게 생겼나'를 관찰해보세요. 이게 나만의 스킬을 만드는 가장 좋은 교재예요.

'X-use' 시대가 오고 있어요

browser-use에 이어 video-use까지, 저는 여기서 하나의 큰 흐름이 보여요. 에이전트에게 도구 사용법을 가르쳐서 특정 분야 작업을 통째로 맡기는 'X-use' 패턴이요. 앞으로는 design-use, music-use 같은 것들이 계속 나올 거라고 봐요. 핵심은 무거운 전용 앱이 아니라, '설명서 + 도구상자' 조합으로 가볍게 만든다는 데 있고요.

결국 우리가 쓰던 복잡한 GUI 프로그램의 상당수가 "말로 시키면 알아서"로 바뀌는 시작점일지도 몰라요. 물론 정밀한 작업은 여전히 사람 손이 필요하겠지만, 90%의 반복 노가다는 에이전트가 가져갈 거예요.

여러분은 어떻게 생각하세요? 영상 편집처럼 '감각'이 중요한 창작 작업까지 AI 에이전트에게 맡기는 게 자연스러워질까요, 아니면 마지막 디테일은 결국 사람 몫으로 남을까요? 그리고 여러분이 매일 하는 반복 작업 중에, 'OO-use' 스킬로 만들어 자동화하고 싶은 건 무엇인가요? 댓글로 같이 이야기해봐요.


🔗 출처: GitHub

SOURCE · GITHUB
원문 전체 보기 → https://github.com/browser-use/video-use
SHARE
처리 중...