"음...", "어..." 자동 삭제 AI로 월 100만원? 비전공자도 영상 편집 자동화 툴 만들어 파는 5단계 실전 가이드
"유튜브 영상 30분 찍으면, 편집은 3시간… 그중 절반은 '음…', '어…' 지우는 데 쓰고 있진 않나요?"
— 영상 만드는 1인 크리에이터들의 공통된 고통
유튜버, 강사, 팟캐스터… 말로 콘텐츠를 만드는 모든 사람에게는 똑같은 적이 있습니다. 바로 '음…', '어…', '그…' 같은 추임새(filler word)입니다. 이걸 일일이 컷 편집으로 지우는 건 영혼을 깎는 노동이죠. 그런데 바로 이 '짜증나는 반복 작업'이야말로 비전공자가 자동화 툴을 만들어 팔기 가장 좋은 먹잇감입니다.
이 글에서는 코딩 경험이 거의 없는 사람도 음성 인식 API와 바이브코딩(AI에게 코드를 짜게 하는 방식)만으로 추임새 자동 제거 프로그램을 만들고, 이를 1인 SaaS 부업으로 월 100만원까지 키우는 5단계 실전 경로를 다룹니다.
대체 이게 어떻게 자동으로 지워지나요?
원리는 생각보다 단순합니다. ① 영상에서 음성을 텍스트로 바꾸면서 각 단어의 시작·끝 시간(타임스탬프)을 받아내고 ② 그중 '음', '어' 같은 단어 구간만 골라낸 뒤 ③ 그 시간대를 영상에서 잘라내 다시 이어붙이면 끝입니다. 이 흐름을 그림으로 보면 이렇습니다.
5단계 실전 가이드
STEP 1. 음성 인식 API로 '단어별 시간'을 받아낸다
가장 중요한 재료입니다. OpenAI Whisper(로컬 무료) 또는 Deepgram·AssemblyAI 같은 음성 인식 API를 쓰면, 영상의 모든 단어가 {단어, 시작시간, 끝시간} 형태로 떨어집니다. 한국어 추임새 인식은 Whisper의 large-v3 모델이 가성비가 좋습니다.
"문장"이 아니라 반드시 "단어 단위 타임스탬프(word-level timestamps)" 옵션을 켜야 합니다. 이게 없으면 어디를 잘라야 할지 알 수 없습니다.
STEP 2. 추임새 사전을 만들어 구간을 골라낸다
`["음", "어", "그", "아", "저기", "뭐랄까"]` 같은 한국어 추임새 목록을 만들고, 텍스트에서 일치하는 단어의 시간 구간만 수집합니다. 여기에 '0.4초 이상의 무음 구간'까지 함께 제거하면 영상이 훨씬 쫀쫀해집니다.
STEP 3. FFmpeg로 영상을 자르고 다시 잇는다
영상 처리의 표준 도구 FFmpeg를 이용해 '남길 구간'만 추려 이어붙입니다. 이 코드는 직접 짤 필요 없이 ChatGPT·Claude에게 "이 타임스탬프 목록만 남기고 잘라서 합쳐줘"라고 요청하면 바이브코딩으로 거의 완성됩니다.
STEP 4. 드래그&드롭 웹앱으로 포장한다
사람들은 명령어 창을 무서워합니다. 영상을 끌어다 놓으면 처리되는 간단한 웹 화면(Streamlit·Next.js)으로 감싸면 '프로그램'이 '제품'이 됩니다.
STEP 5. 구독 결제를 붙여 SaaS로 판다
결제(Stripe·토스페이먼츠)를 붙이고 '월 30개 영상까지' 같은 사용량 제한을 두면 끝. 이제 자는 동안에도 돈이 들어오는 1인 SaaS가 됩니다.
정말 월 100만원이 되나요? — 숫자로 계산
월 구독료 19,000원짜리 툴이라면, 유료 구독자 53명이면 월 매출 100만원을 넘깁니다. 유튜브·인스타에 '추임새 자동 삭제' 콘텐츠를 올리는 크리에이터가 수만 명인 걸 생각하면, 53명은 결코 비현실적인 숫자가 아닙니다.
처음부터 SaaS를 만들지 마세요. 먼저 "영상 보내주시면 추임새 지워드립니다 (건당 1만원)" 외주로 수요를 검증한 뒤, 주문이 늘어 손이 부족해질 때 자동화 툴로 전환하는 순서가 가장 안전합니다.
비전공자가 빠지기 쉬운 함정 3가지
① 완벽주의 — 추임새 90%만 잡아도 사용자는 충분히 감동합니다. ② 큰 영상 처리 — 1시간짜리 영상은 잘게 쪼개 처리해야 메모리 오류가 안 납니다. ③ 마케팅 외면 — 만드는 데 70%, 알리는 데 30%가 아니라, 만드는 데 30%, 알리는 데 70%입니다.
여기까지 읽고 "원리는 알겠는데, Whisper 설치부터 FFmpeg 연결, 결제 붙이기까지 혼자 하긴 막막하다"는 생각이 드셨다면 정상입니다. 그 '연결고리'를 처음부터 끝까지 함께 만들어보는 곳이 바로 투더제이(TTJ) 코딩클래스 정규반입니다. 비전공자가 AI를 활용해 실제로 '파는 제품'을 완성하는 과정을 다루니, 막연한 아이디어를 수익으로 바꾸고 싶다면 한 번 들여다보시길 권합니다.
'음…', '어…'를 지우는 건 작은 기능 하나지만, 그 작은 불편 하나를 자동화해 파는 순간 당신은 '콘텐츠 소비자'에서 '도구를 파는 사람'이 됩니다. 오늘 가장 짜증났던 반복 작업을 떠올려 보세요. 그게 바로 당신의 첫 번째 제품 아이디어입니다.