녹음에서 "음...", "어..."만 지우는 게 왜 이렇게 어려울까요 — 추임새 제거 도구 만들기의 함정들

"음..."만 잘라내면 되는 거 아니에요?

팟캐스트나 강의 영상을 편집해본 분이라면 공감하실 텐데요, 녹음본에서 "음...", "어...", "그..." 같은 추임새(filler)를 지우는 작업은 정말 지루하고 손이 많이 가는 일이에요. 파형을 눈으로 보면서 하나하나 찾아 자르다 보면 30분짜리 녹음에 두세 시간이 훌쩍 가거든요. 그래서 한 개발자가 이걸 자동으로 해주는 로컬 CLI 도구 'erm'을 만들었는데, 그 과정을 정리한 글이 꽤 흥미로워요. 결론부터 말하면, 이 단순해 보이는 문제가 생각보다 훨씬 어려웠다는 이야기예요.

언뜻 생각하면 간단해 보이죠. 음성 인식 모델로 녹음을 텍스트로 바꾸고, "um"이 나온 시간 구간을 찾아서, 그 구간만 오디오에서 잘라내면 끝 아닌가? 그런데 이 세 단계가 전부 함정이에요.

첫 번째 함정: AI가 추임새를 '안 적어줘요'

가장 큰 문제는 의외의 곳에 있었는데요. Whisper 같은 음성 인식 모델은 추임새를 아예 받아 적지 않는 경우가 많아요. 이게 왜 그러냐면, 이런 모델들은 사람이 만든 '깔끔한' 자막이나 전사(transcript, 말을 글로 받아 적은 것) 데이터로 학습됐거든요. 자막 만드는 사람들은 당연히 "음..."을 안 적죠. 그러니 모델도 추임새는 무시하고 매끄러운 문장만 출력하도록 배운 거예요.

그래서 아이러니한 상황이 벌어져요. 우리가 찾아서 지우고 싶은 바로 그 소리를, AI가 친절하게도 먼저 '없는 셈' 쳐버리는 거죠. 지우개로 지울 자리를 찾아야 하는데 지도에서 그 자리가 아예 빠져 있는 셈이에요. 그래서 추임새를 잡으려면 일부러 추임새까지 그대로 받아 적도록 만들어진 모델이나 설정을 써야 하고, 그래도 놓치는 게 생겨서 별도의 후처리가 필요해요.

두 번째 함정: '언제부터 언제까지'가 부정확해요

추임새를 찾았다고 해도, 그게 오디오의 정확히 몇 초부터 몇 초까지인지 알아내는 게 또 문제예요. 음성 인식 모델이 알려주는 단어 단위 타임스탬프는 생각보다 부정확하거든요. 수십에서 수백 밀리초씩 어긋나는 일이 흔한데, 말소리에서 0.1초는 꽤 큰 차이라서 그대로 자르면 앞 단어의 꼬리나 뒤 단어의 머리가 같이 잘려나가요. 그래서 강제 정렬(forced alignment)이라고, 텍스트와 오디오를 다시 정밀하게 맞춰주는 별도 단계를 거치거나, 타임스탬프 주변에 여유 구간을 두고 실제 소리의 경계를 다시 찾는 작업이 필요해요.

세 번째 함정: 자른 티가 나면 안 돼요

구간을 정확히 찾았다고 끝이 아니에요. 오디오를 그냥 뚝 잘라서 이어 붙이면 '틱' 하는 클릭 노이즈가 생기는데요, 이게 뭐냐면 소리의 파형이 0이 아닌 지점에서 갑자기 잘리면 신호가 순간적으로 점프하면서 잡음으로 들리는 현상이에요. 그래서 잘린 두 구간을 아주 짧게 겹쳐서 부드럽게 섞어주는 크로스페이드 처리가 필요해요. 그리고 추임새를 너무 빡빡하게 다 지워버리면 말의 리듬 자체가 이상해져요. 사람 말에는 원래 숨 쉬고 생각하는 틈이 있는데 그게 전부 사라지면 기계가 말하는 것처럼 부자연스럽게 들리거든요. 그래서 적당한 무음을 남길지 말지 판단하는 로직까지 들어가야 해요.

이미 있는 서비스랑 뭐가 다른가요

사실 이 기능 자체는 Descript나 Adobe의 팟캐스트 도구 같은 상용 서비스에 이미 들어 있어요. 버튼 하나로 추임새를 지워주죠. 그런데 이런 서비스는 녹음 파일을 회사 서버에 올려야 하고, 구독료도 들어요. 로컬 CLI의 매력은 여기 있는데요, 녹음이 내 컴퓨터를 벗어나지 않으니 회의 녹음이나 인터뷰처럼 민감한 내용도 안심하고 처리할 수 있고, 스크립트로 묶어서 "녹음 끝나면 자동으로 추임새 제거 후 업로드" 같은 파이프라인도 만들 수 있어요.

한국 개발자에게 주는 시사점

이 이야기에서 기억할 만한 교훈은 "AI 모델의 출력은 학습 데이터의 의도를 그대로 반영한다"는 거예요. Whisper가 추임새를 못 잡는 건 모델이 부족해서가 아니라, 애초에 그렇게 하도록 학습됐기 때문이거든요. 어떤 모델을 도구로 가져다 쓸 때는 그 모델이 '무엇을 위해' 만들어졌는지 이해해야 엉뚱한 결과에 당황하지 않아요. 그리고 강의 영상이나 팟캐스트, 유튜브 콘텐츠를 만드는 분이라면 이런 도구를 직접 파이프라인에 넣어볼 만하고요. 한국어 추임새("음", "어", "그", "뭐랄까")에 맞춘 버전을 만들어보는 것도 괜찮은 사이드 프로젝트 같아요. 한국어 음성 인식 모델에서 같은 문제가 어떻게 나타나는지 확인하는 것부터가 재미있는 실험이 될 거예요.