MAKE 으로 돌아가기
MAKE TTJ 1주 전 7분 읽기 17 READS

"음...", "어..." 자동 삭제 AI로 월 100만원? 비전공자도 영상 편집 자동화 툴 만들어 파는 5단계 실전 가이드

<blockquote style="margin:32px 0;padding:24px 28px;background:#FFF7ED;border-left:4px solid #E8590C;border-radius:0 10px 10px 0;font-size:18px;line-height:1.8;color:#1a1a1a;">"유튜브 영상 30분 찍으면, 편집은 3시간… 그중 절반은 '음…', '어…' 지우는 데 쓰고 있진 않나요?"<br/><span style="font-size:14px;color:#888;">— 영상 만드는 1인 크리에이터들의 공통된 고통</span></blockquote>

<p style="font-size:16px;line-height:1.9;color:#222;">유튜버, 강사, 팟캐스터… 말로 콘텐츠를 만드는 모든 사람에게는 똑같은 적이 있습니다. 바로 <span style="background:linear-gradient(transparent 60%,rgba(232,89,12,0.15) 60%);padding:0 3px;">'음…', '어…', '그…' 같은 추임새(filler word)</span>입니다. 이걸 일일이 컷 편집으로 지우는 건 영혼을 깎는 노동이죠. 그런데 바로 이 '짜증나는 반복 작업'이야말로 비전공자가 자동화 툴을 만들어 팔기 가장 좋은 먹잇감입니다.</p>

<p style="font-size:16px;line-height:1.9;color:#222;">이 글에서는 코딩 경험이 거의 없는 사람도 <strong>음성 인식 API</strong>와 <strong>바이브코딩(AI에게 코드를 짜게 하는 방식)</strong>만으로 추임새 자동 제거 프로그램을 만들고, 이를 <strong>1인 SaaS 부업</strong>으로 월 100만원까지 키우는 5단계 실전 경로를 다룹니다.</p>

<div style="display:flex;gap:16px;margin:24px 0;">
<div style="flex:1;padding:20px;background:#f8fafc;border-radius:12px;border:1px solid #e2e8f0;text-align:center;">
<div style="font-size:28px;font-weight:800;color:#E8590C;">3시간 → 8분</div>
<div style="font-size:13px;color:#666;margin-top:4px;">30분 영상 편집 시간 단축</div>
</div>
<div style="flex:1;padding:20px;background:#f8fafc;border-radius:12px;border:1px solid #e2e8f0;text-align:center;">
<div style="font-size:28px;font-weight:800;color:#E8590C;">₩19,000</div>
<div style="font-size:13px;color:#666;margin-top:4px;">월 구독 적정 단가</div>
</div>
<div style="flex:1;padding:20px;background:#f8fafc;border-radius:12px;border:1px solid #e2e8f0;text-align:center;">
<div style="font-size:28px;font-weight:800;color:#E8590C;">53명</div>
<div style="font-size:13px;color:#666;margin-top:4px;">월 100만원 달성 구독자 수</div>
</div>
</div>

<h2 style="font-size:24px;font-weight:800;color:#1a1a1a;margin:40px 0 16px;">대체 이게 어떻게 자동으로 지워지나요?</h2>

<p style="font-size:16px;line-height:1.9;color:#222;">원리는 생각보다 단순합니다. ① 영상에서 음성을 텍스트로 바꾸면서 <strong>각 단어의 시작·끝 시간(타임스탬프)</strong>을 받아내고 ② 그중 '음', '어' 같은 단어 구간만 골라낸 뒤 ③ 그 시간대를 영상에서 잘라내 다시 이어붙이면 끝입니다. 이 흐름을 그림으로 보면 이렇습니다.</p>

<div style="margin:32px 0;border-radius:14px;overflow:hidden;border:1px solid #e8e4dc;background:#fff;">
<svg style="display:block;width:100%;height:auto;font-family:'Malgun Gothic','맑은 고딕',-apple-system,BlinkMacSystemFont,sans-serif" viewBox="0 0 680 360" xmlns="http://www.w3.org/2000/svg">
<rect x="40" y="40" width="140" height="70" rx="12" fill="#FFF7ED" stroke="#E8590C" stroke-width="1.5"/>
<text x="110" y="70" text-anchor="middle" font-size="14" font-weight="700" fill="#E8590C">① 원본 영상</text>
<text x="110" y="92" text-anchor="middle" font-size="12" fill="#92400e">음성 + 화면</text>

<rect x="270" y="40" width="140" height="70" rx="12" fill="#EFF6FF" stroke="#2563EB" stroke-width="1.5"/>
<text x="340" y="70" text-anchor="middle" font-size="14" font-weight="700" fill="#2563EB">② 음성→텍스트</text>
<text x="340" y="92" text-anchor="middle" font-size="12" fill="#1e40af">단어별 시간 추출</text>

<rect x="500" y="40" width="140" height="70" rx="12" fill="#F0FDF4" stroke="#15803D" stroke-width="1.5"/>
<text x="570" y="70" text-anchor="middle" font-size="14" font-weight="700" fill="#15803D">③ 추임새 탐지</text>
<text x="570" y="92" text-anchor="middle" font-size="12" fill="#166534">"음","어" 구간 표시</text>

<rect x="270" y="200" width="140" height="70" rx="12" fill="#FDF4FF" stroke="#A21CAF" stroke-width="1.5"/>
<text x="340" y="230" text-anchor="middle" font-size="14" font-weight="700" fill="#A21CAF">④ 구간 잘라내기</text>
<text x="340" y="252" text-anchor="middle" font-size="12" fill="#86198f">해당 시간 삭제</text>

<rect x="40" y="200" width="140" height="70" rx="12" fill="#FFFBEB" stroke="#D97706" stroke-width="1.5"/>
<text x="110" y="230" text-anchor="middle" font-size="14" font-weight="700" fill="#D97706">⑤ 완성 영상</text>
<text x="110" y="252" text-anchor="middle" font-size="12" fill="#b45309">깔끔하게 출력</text>

<line x1="180" y1="75" x2="268" y2="75" stroke="#999" stroke-width="2" marker-end="url(#ar)"/>
<line x1="410" y1="75" x2="498" y2="75" stroke="#999" stroke-width="2" marker-end="url(#ar)"/>
<line x1="570" y1="110" x2="570" y2="160" stroke="#999" stroke-width="2"/>
<line x1="570" y1="160" x2="340" y2="160" stroke="#999" stroke-width="2"/>
<line x1="340" y1="160" x2="340" y2="198" stroke="#999" stroke-width="2" marker-end="url(#ar)"/>
<line x1="268" y1="235" x2="182" y2="235" stroke="#999" stroke-width="2" marker-end="url(#ar)"/>

<text x="340" y="320" text-anchor="middle" font-size="13" fill="#888">핵심은 ②번 '단어별 타임스탬프' — 이게 모든 자동화의 출발점입니다</text>
<defs>
<marker id="ar" markerWidth="9" markerHeight="9" refX="7" refY="3" orient="auto" markerUnits="strokeWidth">
<path d="M0,0 L7,3 L0,6 Z" fill="#999"/>
</marker>
</defs>
</svg>
<div style="padding:10px 20px;font-size:13px;color:#888;text-align:center;border-top:1px solid #e8e4dc;background:#f8f6f0;">추임새 자동 제거 프로그램의 5단계 처리 흐름</div>
</div>

<h2 style="font-size:24px;font-weight:800;color:#1a1a1a;margin:40px 0 16px;">5단계 실전 가이드</h2>

<h3 style="font-size:19px;font-weight:700;color:#E8590C;margin:28px 0 10px;">STEP 1. 음성 인식 API로 '단어별 시간'을 받아낸다</h3>
<p style="font-size:16px;line-height:1.9;color:#222;">가장 중요한 재료입니다. <strong>OpenAI Whisper</strong>(로컬 무료) 또는 <strong>Deepgram·AssemblyAI</strong> 같은 음성 인식 API를 쓰면, 영상의 모든 단어가 <code style="background:#f1f1f1;padding:1px 5px;border-radius:4px;">{단어, 시작시간, 끝시간}</code> 형태로 떨어집니다. 한국어 추임새 인식은 Whisper의 <code style="background:#f1f1f1;padding:1px 5px;border-radius:4px;">large-v3</code> 모델이 가성비가 좋습니다.</p>

<div style="margin:24px 0;padding:20px 24px;background:#F0FDF4;border:1px solid #BBF7D0;border-radius:12px;">
<strong style="color:#15803D;">✓ 핵심 포인트</strong><br/>"문장"이 아니라 반드시 <b>"단어 단위 타임스탬프(word-level timestamps)"</b> 옵션을 켜야 합니다. 이게 없으면 어디를 잘라야 할지 알 수 없습니다.
</div>

<h3 style="font-size:19px;font-weight:700;color:#E8590C;margin:28px 0 10px;">STEP 2. 추임새 사전을 만들어 구간을 골라낸다</h3>
<p style="font-size:16px;line-height:1.9;color:#222;">["음", "어", "그", "아", "저기", "뭐랄까"] 같은 한국어 추임새 목록을 만들고, 텍스트에서 일치하는 단어의 시간 구간만 수집합니다. 여기에 <span style="background:linear-gradient(transparent 60%,rgba(232,89,12,0.15) 60%);padding:0 3px;">'0.4초 이상의 무음 구간'까지 함께 제거</span>하면 영상이 훨씬 쫀쫀해집니다.</p>

<h3 style="font-size:19px;font-weight:700;color:#E8590C;margin:28px 0 10px;">STEP 3. FFmpeg로 영상을 자르고 다시 잇는다</h3>
<p style="font-size:16px;line-height:1.9;color:#222;">영상 처리의 표준 도구 <strong>FFmpeg</strong>를 이용해 '남길 구간'만 추려 이어붙입니다. 이 코드는 직접 짤 필요 없이 ChatGPT·Claude에게 "이 타임스탬프 목록만 남기고 잘라서 합쳐줘"라고 요청하면 바이브코딩으로 거의 완성됩니다.</p>

<h3 style="font-size:19px;font-weight:700;color:#E8590C;margin:28px 0 10px;">STEP 4. 드래그&드롭 웹앱으로 포장한다</h3>
<p style="font-size:16px;line-height:1.9;color:#222;">사람들은 명령어 창을 무서워합니다. 영상을 끌어다 놓으면 처리되는 간단한 웹 화면(Streamlit·Next.js)으로 감싸면 '프로그램'이 '제품'이 됩니다.</p>

<h3 style="font-size:19px;font-weight:700;color:#E8590C;margin:28px 0 10px;">STEP 5. 구독 결제를 붙여 SaaS로 판다</h3>
<p style="font-size:16px;line-height:1.9;color:#222;">결제(Stripe·토스페이먼츠)를 붙이고 '월 30개 영상까지' 같은 사용량 제한을 두면 끝. 이제 자는 동안에도 돈이 들어오는 <strong>1인 SaaS</strong>가 됩니다.</p>

<div style="margin:32px 0;border-radius:14px;overflow:hidden;border:1px solid #e8e4dc;background:#fff;">
<svg style="display:block;width:100%;height:auto;font-family:'Malgun Gothic','맑은 고딕',-apple-system,BlinkMacSystemFont,sans-serif" viewBox="0 0 680 340" xmlns="http://www.w3.org/2000/svg">
<text x="340" y="34" text-anchor="middle" font-size="16" font-weight="800" fill="#1a1a1a">수동 편집 vs 자동화 툴 비교</text>

<rect x="40" y="60" width="280" height="240" rx="14" fill="#FEF2F2" stroke="#FCA5A5" stroke-width="1.5"/>
<text x="180" y="92" text-anchor="middle" font-size="16" font-weight="700" fill="#DC2626">😩 수동 컷 편집</text>
<text x="180" y="132" text-anchor="middle" font-size="13" fill="#7f1d1d">30분 영상 → 약 3시간 소요</text>
<text x="180" y="166" text-anchor="middle" font-size="13" fill="#7f1d1d">반복 노동·집중력 소모</text>
<text x="180" y="200" text-anchor="middle" font-size="13" fill="#7f1d1d">놓치는 추임새 다수</text>
<text x="180" y="234" text-anchor="middle" font-size="13" fill="#7f1d1d">확장 불가능 (내 시간 = 한계)</text>
<text x="180" y="272" text-anchor="middle" font-size="15" font-weight="700" fill="#DC2626">시급 = 0원</text>

<rect x="360" y="60" width="280" height="240" rx="14" fill="#F0FDF4" stroke="#86EFAC" stroke-width="1.5"/>
<text x="500" y="92" text-anchor="middle" font-size="16" font-weight="700" fill="#15803D">🚀 자동화 SaaS</text>
<text x="500" y="132" text-anchor="middle" font-size="13" fill="#166534">30분 영상 → 약 8분 소요</text>
<text x="500" y="166" text-anchor="middle" font-size="13" fill="#166534">업로드 후 방치 가능</text>
<text x="500" y="200" text-anchor="middle" font-size="13" fill="#166534">일관된 품질로 일괄 제거</text>
<text x="500" y="234" text-anchor="middle" font-size="13" fill="#166534">구독자 늘수록 매출 증가</text>
<text x="500" y="272" text-anchor="middle" font-size="15" font-weight="700" fill="#15803D">월 100만원 가능</text>
</svg>
<div style="padding:10px 20px;font-size:13px;color:#888;text-align:center;border-top:1px solid #e8e4dc;background:#f8f6f0;">같은 작업, 전혀 다른 수익 구조 — '내 시간'이 아니라 '코드'가 일하게 만드는 것</div>
</div>

<h2 style="font-size:24px;font-weight:800;color:#1a1a1a;margin:40px 0 16px;">정말 월 100만원이 되나요? — 숫자로 계산</h2>
<p style="font-size:16px;line-height:1.9;color:#222;">월 구독료 19,000원짜리 툴이라면, <span style="background:linear-gradient(transparent 60%,rgba(232,89,12,0.15) 60%);padding:0 3px;">유료 구독자 53명</span>이면 월 매출 100만원을 넘깁니다. 유튜브·인스타에 '추임새 자동 삭제' 콘텐츠를 올리는 크리에이터가 수만 명인 걸 생각하면, 53명은 결코 비현실적인 숫자가 아닙니다.</p>

<div style="margin:24px 0;padding:20px 24px;background:#FFF7ED;border:1px solid #FED7AA;border-radius:12px;">
<strong style="color:#C2410C;">💡 부업 현실 팁</strong><br/>처음부터 SaaS를 만들지 마세요. 먼저 <b>"영상 보내주시면 추임새 지워드립니다 (건당 1만원)"</b> 외주로 수요를 검증한 뒤, 주문이 늘어 손이 부족해질 때 자동화 툴로 전환하는 순서가 가장 안전합니다.
</div>

<h2 style="font-size:24px;font-weight:800;color:#1a1a1a;margin:40px 0 16px;">비전공자가 빠지기 쉬운 함정 3가지</h2>
<p style="font-size:16px;line-height:1.9;color:#222;">① <b>완벽주의</b> — 추임새 90%만 잡아도 사용자는 충분히 감동합니다. ② <b>큰 영상 처리</b> — 1시간짜리 영상은 잘게 쪼개 처리해야 메모리 오류가 안 납니다. ③ <b>마케팅 외면</b> — 만드는 데 70%, 알리는 데 30%가 아니라, <span style="background:linear-gradient(transparent 60%,rgba(232,89,12,0.15) 60%);padding:0 3px;">만드는 데 30%, 알리는 데 70%</span>입니다.</p>

<div style="margin:32px 0;padding:24px 28px;background:#0f172a;border-radius:14px;color:#e2e8f0;">
<p style="font-size:17px;line-height:1.8;margin:0;">여기까지 읽고 "원리는 알겠는데, Whisper 설치부터 FFmpeg 연결, 결제 붙이기까지 혼자 하긴 막막하다"는 생각이 드셨다면 정상입니다. 그 '연결고리'를 처음부터 끝까지 함께 만들어보는 곳이 바로 <strong style="color:#fdba74;">투더제이(TTJ) 코딩클래스 정규반</strong>입니다. 비전공자가 AI를 활용해 실제로 '파는 제품'을 완성하는 과정을 다루니, 막연한 아이디어를 수익으로 바꾸고 싶다면 한 번 들여다보시길 권합니다.</p>
</div>

<p style="font-size:16px;line-height:1.9;color:#222;">'음…', '어…'를 지우는 건 작은 기능 하나지만, 그 작은 불편 하나를 자동화해 파는 순간 당신은 '콘텐츠 소비자'에서 '도구를 파는 사람'이 됩니다. 오늘 가장 짜증났던 반복 작업을 떠올려 보세요. <span style="background:linear-gradient(transparent 60%,rgba(232,89,12,0.15) 60%);padding:0 3px;">그게 바로 당신의 첫 번째 제품 아이디어입니다.</span></p>

SHARE
처리 중...