[심층분석] 토크나이저 없이 30개 언어를 말하는 AI - VoxCPM2가 TTS 판을 흔드는 이유

음성 합성, 드디어 '말맛'을 잡기 시작했어요

혹시 요즘 유튜브나 쇼츠에서 "이거 진짜 사람 목소리 아니야?" 싶은 AI 내레이션 들어보신 적 있나요? 불과 2~3년 전만 해도 AI 음성은 어딘가 어색했어요. 말끝이 뚝뚝 끊기거나, 감정이 1도 없는 로봇 같은 목소리거나, 한국어를 시키면 영어 억양이 묻어나거나요. 그런데 지금은 상황이 완전히 달라졌습니다. 그리고 그 변화의 한가운데에 오늘 소개할 VoxCPM2가 있어요.

VoxCPM2는 중국 칭화대 OpenBMB 팀이 공개한 오픈소스 TTS(Text-to-Speech, 글자를 음성으로 바꿔주는 기술) 모델이에요. 이름이 좀 길지만 풀어보면 의미가 뚜렷합니다. "Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning." 풀어서 번역하면 "토큰화(쪼개기)를 거치지 않는, 다국어 음성 생성과 창의적 보이스 디자인, 그리고 실제 사람 같은 복제가 가능한 TTS"라는 뜻이에요.

특히 주목할 부분이 세 가지인데요. 첫째, 2B(20억) 파라미터 모델이라 그렇게 무겁지 않다는 점. 둘째, 200만 시간이 넘는 다국어 음성 데이터로 훈련됐다는 점. 셋째, 그리고 가장 흥미로운 부분인데, "토크나이저가 없다"는 점이에요. 이게 왜 중요한지, 그리고 어떻게 동작하는지 지금부터 차근차근 풀어볼게요.

'Tokenizer-Free'가 도대체 뭐길래

먼저 토크나이저(tokenizer)가 뭔지부터 짚고 갈게요. 토크나이저는 쉽게 말해서 '쪼개는 도구'예요. 글이든 소리든 AI가 한 번에 처리하기 어려우니까, 작은 단위로 잘게 나눠서 번호를 매기는 거죠. ChatGPT 같은 언어 모델도 우리가 입력한 문장을 토큰(token)이라는 단위로 쪼개서 처리합니다. "안녕하세요"가 들어가면 ["안", "녕", "하세요"] 같은 식으로 나뉘는 거예요.

그런데 음성 합성에서도 비슷한 일이 벌어집니다. 기존 TTS 모델들(예: VALL-E, XTTS, CosyVoice 같은 모델들)은 음성을 '이산 토큰(discrete token)'으로 바꾼 다음, 그 토큰을 예측하는 방식으로 음성을 만들어요. 이게 뭐냐면, 연속적인 소리 파형을 "음성 단어" 같은 작은 조각들로 쪼개서 사전을 만들고, 그 사전에서 어떤 조각이 다음에 올지 맞히는 식이에요. 마치 레고 블록 조립하듯이요.

이 방식의 문제가 뭐냐면, 쪼개는 순간 정보가 손실된다는 점이에요. 사람의 목소리는 단순한 음소(phoneme)의 나열이 아니거든요. 미세한 떨림, 숨소리, 억양의 곡선, 감정의 흔들림 같은 게 다 연속적인 신호 안에 녹아 있어요. 이걸 억지로 1024개나 4096개의 토큰 사전으로 쪼개면, 사전에 없는 미묘한 음색은 표현하기 어려워집니다. 한국인이 영어 배울 때 한글로 발음 표기하면 미묘한 차이가 다 날아가는 것과 비슷해요. "th"를 "ㅆ"로 적는 순간 진짜 발음과는 멀어지잖아요.

VoxCPM2가 "tokenizer-free"라고 자신 있게 말하는 이유가 여기 있어요. 음성을 토큰으로 쪼개지 않고, 연속적인 음성 표현(continuous speech representation)을 직접 생성합니다. 어떻게요? 확산 자기회귀(diffusion autoregressive) 아키텍처라는 걸 써요. 단어가 어려운데, 풀어보면 이래요. 자기회귀는 "이전에 만든 걸 보고 다음 걸 만든다"는 뜻이고, 확산(diffusion)은 "노이즈에서 점점 또렷한 신호로 다듬어 나간다"는 뜻이에요. 두 개를 합치면, 시간 순서대로 음성을 만들면서, 각 순간의 소리는 노이즈에서 점점 또렷하게 다듬어 가는 방식이 됩니다.

비유하자면 이래요. 기존 토큰 방식이 '타일 모자이크로 그림 그리기'라면, VoxCPM2는 '붓으로 수채화 그리기'예요. 타일은 종류가 정해져 있어서 빠르지만 디테일이 거칠고, 수채화는 무한한 색감과 농도를 표현할 수 있지만 다루기가 까다롭죠. 그동안 음성 AI들이 타일 방식을 쓴 건 이게 훨씬 다루기 쉬웠기 때문인데, VoxCPM2는 "이제 우리 수채화도 잘 그릴 수 있다"고 선언한 거예요.

30개 언어, 그리고 'Voice Design'이라는 새로운 발상

VoxCPM2의 또 다른 강점은 30개 언어 지원이에요. 더 흥미로운 건, 사용할 때 "이건 한국어야", "이건 영어야" 하고 언어 태그를 붙일 필요가 없다는 점이에요. 텍스트를 그냥 넣으면 모델이 알아서 어느 언어인지 파악하고 합성합니다. 다국어 환경에서 일하는 분들한테는 이게 꽤 큰 편의예요. 예전엔 언어마다 다른 모델을 띄우거나, 적어도 언어 코드를 매번 지정해야 했거든요.

그리고 진짜 신박한 기능이 하나 있는데, 'Voice Design'이라는 거예요. 이게 뭐냐면, 참고 음성 파일 없이 자연어 설명만으로 새로운 목소리를 만들어내는 기능이에요. 예를 들어 "30대 여성, 차분하고 약간 허스키한 톤, 천천히 말함" 이렇게 텍스트로 지시하면 그런 목소리를 만들어 줍니다. 마치 미드저니(Midjourney)에서 "빈티지 카메라로 찍은 도쿄 골목길" 하고 입력하면 그 분위기의 이미지가 나오는 것처럼, 목소리도 '말로 설계'하는 시대가 온 거예요.

이게 왜 의미 있냐면, 그동안 보이스 클로닝은 항상 "누군가의 실제 목소리를 본떠야 한다"는 윤리적/저작권 문제가 따라다녔거든요. 유명인의 목소리를 무단으로 복제하는 딥페이크 사례 때문에 규제도 강화되고 있고요. 그런데 Voice Design은 존재하지 않는 가상의 목소리를 창작하는 방식이라, 이 문제에서 비교적 자유로워요. 게임 캐릭터, 가상 인플루언서, 오디오북 내레이터 같은 곳에서 굉장히 유용하게 쓰일 수 있어요.

반대로, 실제 사람의 목소리를 따라하고 싶을 때 쓸 수 있는 모드도 세 가지로 정리돼 있습니다.

Controllable Cloning: 짧은 참고 음성에서 음색만 가져오고, 감정이나 말의 속도는 따로 지시할 수 있어요.
Ultimate Cloning: 참고 음성 + 그 음성의 텍스트(transcript)를 함께 주면, 모델이 그 음성에 이어서 자연스럽게 말을 이어가요. 음색, 리듬, 감정, 스타일까지 다 보존됩니다.
Context-Aware Synthesis: 별도 지시 없이도 텍스트 내용을 보고 적절한 어조와 표현을 자동으로 추론해요.

실무에서 가장 자주 쓰일 건 아마 Controllable Cloning일 거예요. 예를 들어 회사 대표님의 짧은 인터뷰 클립 하나로 사내 교육 영상 내레이션을 만들 때, "이번엔 좀 더 진지한 톤으로 읽어줘" 같은 조정이 가능하니까요.

48kHz 스튜디오 품질과 실시간 스트리밍

기술적으로 한 가지 더 짚고 싶은 부분이 음질이에요. VoxCPM2는 16kHz 참고 음성을 받아서 48kHz로 출력합니다. 이게 무슨 말이냐면, 입력은 일반 통화 수준(16kHz)이어도 출력은 음반 스튜디오 수준(48kHz)으로 나온다는 거예요. 보통 이런 걸 하려면 별도의 업샘플러(upsampler)나 슈퍼레졸루션(super-resolution) 모델을 뒤에 붙여야 하는데, VoxCPM2는 AudioVAE V2라는 자체 디코더 안에 이 기능을 내장했어요. 파이프라인이 단순해진 거죠. 비유하자면, 예전에는 사진을 찍고(카메라) → 색 보정하고(포토샵) → 화질 올리는(별도 AI 툴) 세 단계가 필요했다면, 이제는 카메라 하나가 다 해주는 셈이에요.

속도도 인상적이에요. RTF(Real-Time Factor, 실시간 비율)가 RTX 4090에서 약 0.3, Nano-vLLM이나 vLLM-Omni로 가속하면 0.13까지 떨어집니다. RTF가 뭐냐면, 1초 분량의 음성을 만드는 데 걸리는 시간을 비율로 나타낸 거예요. RTF 0.3이면 1초 음성을 0.3초 만에 만든다는 뜻이니까, 사실상 실시간보다 3배 빠르다는 말이에요. RTF 0.13이면 7~8배 빠른 거고요. 이 정도면 라이브 더빙, 실시간 통역, 음성 챗봇 같은 시나리오에 충분히 쓸 수 있어요.

특히 vLLM-Omni 지원이 흥미로워요. vLLM은 원래 대규모 언어 모델(LLM)을 빠르게 서빙하기 위한 추론 엔진인데, 이걸 음성 같은 옴니모달(omni-modal, 여러 양식) 모델에도 적용한 게 vLLM-Omni예요. PagedAttention이라는 메모리 효율화 기법, OpenAI 호환 API 제공까지 갖춰서, 운영 환경에 올리기가 한결 수월해졌어요. "AI 음성 서비스를 우리 회사 인프라에 직접 띄우고 싶다"는 팀에게는 큰 호재예요.

경쟁 모델들과 비교해보면

비슷한 시기에 나온 다른 오픈소스 TTS들과 한번 비교해볼게요.

XTTS-v2 (Coqui): 한때 오픈소스 TTS의 사실상 표준이었어요. 17개 언어, 짧은 클로닝 지원. 다만 토큰 기반이라 음질의 한계가 있고, Coqui가 사업적으로 어려움을 겪으면서 업데이트가 멈춰 있어요.
CosyVoice 2 (Alibaba): 토큰 기반이지만 흐름이 자연스럽고 중국어/영어에서 강력해요. 다만 다국어 폭은 VoxCPM2가 더 넓어요.
F5-TTS: Flow Matching이라는 기법을 써서 학습이 효율적이고 품질도 좋은데, 보이스 디자인 같은 창작 기능은 없어요.
ElevenLabs (상용): 품질은 여전히 최고 수준이지만 API 기반이라 데이터를 외부로 보내야 하고, 비용도 만만치 않죠.

VoxCPM2의 포지셔닝은 이런 식이에요. "상용 수준 품질을 오픈소스로, 그것도 자체 호스팅 가능하게". 의료, 금융, 공공기관처럼 외부 API를 못 쓰는 환경에서 진짜 매력적인 옵션이에요. 거기다 토크나이저가 없으니까 한국어처럼 음성 토큰 사전이 부족했던 언어에서도 자연스러운 합성을 기대할 수 있어요. 한국어 학습 데이터 비중이 어느 정도인지는 직접 써봐야 알겠지만, 30개 언어 안에 포함된 만큼 기대해볼 만합니다.

한국 개발자라면 어떻게 활용할 수 있을까

구체적인 시나리오 몇 개 들어볼게요.

첫째, 콘텐츠 제작자라면 영상 내레이션이나 팟캐스트 더빙에 바로 써볼 수 있어요. 본인 목소리 30초만 녹음해서 Controllable Cloning으로 돌리면, 긴 원고를 일관된 톤으로 읽어줍니다. 감기 걸린 날에도 "내 목소리로" 영상을 올릴 수 있는 거예요.

둘째, 챗봇이나 음성 비서를 만드는 팀이라면 RTF 0.13이라는 속도가 매력적이에요. ChatGPT 응답을 받아서 바로 음성으로 변환해 들려주는 파이프라인을 만들 때, 지연이 거의 안 느껴지는 수준이거든요.

셋째, 교육/이러닝 플랫폼이라면 Voice Design으로 캐릭터별 음성을 만들어 강의를 더 풍성하게 만들 수 있어요. 어린이 콘텐츠라면 "밝고 다정한 20대 여성 톤", 역사 다큐라면 "중후한 50대 남성 톤" 식으로요.

넷째, 접근성 서비스. 시각장애인을 위한 화면 낭독기를 만들 때, 기존의 딱딱한 TTS 대신 자연스러운 음성을 쓰면 사용자 경험이 확 달라져요.

도입할 때 고려할 점도 짚어드릴게요. 2B 파라미터 모델이라 GPU 메모리가 최소 8GB 정도는 있어야 편하게 돌릴 수 있어요. RTX 3060 12GB나 RTX 4070 정도면 충분합니다. CPU만으로도 돌아가긴 하지만 실시간성은 포기해야 해요. 또 라이선스를 꼭 확인하세요. 오픈소스라고 해서 모든 상업적 사용이 자유로운 건 아니거든요. README에 명시된 LICENSE 파일을 먼저 보고, 회사 법무팀과 한번 상의하는 게 안전합니다.

학습 로드맵을 짠다면 이렇게 권하고 싶어요. 먼저 공식 데모(app.py)를 로컬에서 띄워보세요. Gradio 기반이라 웹 UI로 바로 체험할 수 있어요. 그다음 lora_ft_webui.py로 자신만의 데이터로 파인튜닝(추가 학습)도 해볼 수 있고요. 그러고 나서 API 서버로 띄워서 실제 서비스에 붙여보는 순서가 자연스러워요.

음성 AI의 다음 챕터

VoxCPM2가 던지는 메시지는 분명해요. "음성을 다룰 때 더 이상 토큰화로 타협하지 않아도 된다"는 거예요. 이건 단순한 성능 개선이 아니라 패러다임의 이동이에요. 마치 이미지 생성에서 GAN(생성적 적대 신경망)에서 Diffusion으로 넘어가던 때와 비슷한 분위기예요. 그때도 "굳이 어렵게 갈 필요 있냐"는 회의론이 있었지만, 결국 디퓨전이 판을 가져갔잖아요.

앞으로 1~2년 안에 토크나이저-프리 방식이 음성 AI의 주류가 될 가능성이 높아요. 그리고 그 흐름은 음성과 텍스트, 영상이 하나로 합쳐진 옴니모달 모델로 이어질 거예요. GPT-4o가 보여준 실시간 음성 대화의 자연스러움을, 이제 오픈소스 진영에서도 따라잡을 수 있게 되는 거죠.

여러분은 어떠세요? 사내 서비스에 AI 음성을 도입한다면 어떤 시나리오부터 시도해보고 싶으신가요? 아니면 이미 ElevenLabs 같은 상용 서비스를 쓰고 있다면, 오픈소스로 갈아탈 때 가장 걸리는 부분은 뭔가요? 보이스 클로닝의 윤리적 가이드라인은 우리 팀에서 어떻게 잡고 계신지도 궁금하네요. 댓글로 경험 공유해 주시면 다음 글에서 더 깊게 다뤄볼게요.

🔗 출처: GitHub

이 글도 읽어보세요