TECH 으로 돌아가기
TECH GITHUB 어제 13분 읽기 87 READS

[심층분석] 말하면 바로 글이 되는데 데이터는 한 발짝도 안 나간다 — 맥용 오프라인 받아쓰기 'FluidVoice' 뜯어보기

[심층분석] 말하면 바로 글이 되는데 데이터는 한 발짝도 안 나간다 — 맥용 오프라인 받아쓰기 'FluidVoice' 뜯어보기

"말로 쓰는 시대"가 진짜로 왔어요

키보드를 두드리는 대신, 그냥 입으로 말하면 화면에 글자가 척척 찍히는 장면... 예전엔 영화에서나 보던 모습이었잖아요. 그런데 요즘 개발자들 사이에서는 이게 진짜 일상 도구가 되고 있어요. 이런 걸 "받아쓰기(dictation)" 또는 "음성-텍스트 변환(STT, Speech-to-Text)"이라고 불러요. 말한 걸 컴퓨터가 알아듣고 텍스트로 바꿔주는 기술이거든요.

그런데 지금까지 나온 받아쓰기 도구들에는 공통된 불편함이 하나 있었어요. 바로 "클라우드"에 의존한다는 점이에요. 클라우드가 뭐냐면, 쉽게 말해 내 컴퓨터가 아니라 저 멀리 어딘가에 있는 회사 서버를 빌려 쓰는 거예요. 내가 말한 음성을 인터넷으로 그 서버에 쏘면, 거기서 글자로 바꿔서 다시 돌려주는 방식이죠. 이러면 세 가지가 걸려요. 첫째, 내 목소리가 외부로 나간다는 프라이버시 부담. 둘째, 인터넷이 끊기면 못 쓴다는 불편함. 셋째, 대부분 매달 구독료를 내야 한다는 점이에요.

오늘 소개할 FluidVoice는 이 세 가지를 한 방에 뒤집어버린 맥(macOS) 전용 오픈소스 앱이에요. 핵심 메시지가 아주 명확해요. "네가 말한 건 전부 네 맥북 안에서만 처리할게. 인터넷도, API 키도, 클라우드도 필요 없어." 음성이 기기 밖으로 단 한 발짝도 안 나가는 거죠. 게다가 라이선스도 GPLv3 오픈소스라 누구나 코드를 뜯어볼 수 있고, 설치도 brew install --cask fluidvoice 한 줄이면 끝이에요.

안을 들여다보면: Parakeet와 Fluid Intelligence

FluidVoice의 동작은 크게 두 단계로 나눠서 이해하면 쉬워요. (1) 듣고 받아쓰는 단계(2) 받아쓴 걸 다듬는 단계예요.

1단계 — 'Parakeet'라는 받아쓰기 엔진

먼저 음성을 텍스트로 바꾸는 핵심 엔진으로 Parakeet(패러킷)를 씁니다. 이게 뭐냐면, 엔비디아(NVIDIA)가 만든 음성 인식 모델이에요. 우리가 흔히 아는 OpenAI의 Whisper(위스퍼)랑 비슷한 역할인데, Parakeet는 "속도"에 특히 강점이 있는 모델로 유명해요.

이번 1.6.0 버전에서 가장 강조하는 게 바로 이 부분이에요. "말하는 순간과 화면에 글자가 뜨는 순간 사이에 거의 지연(delay)이 없다"는 거죠. 받아쓰기 도구를 써본 분들은 알겠지만, 말하고 나서 한 박자 늦게 글자가 뜨면 굉장히 답답하거든요. 이걸 "체감 지연"이라고 하는데, FluidVoice는 Parakeet 구현을 아예 새로 짜서 이 지연을 거의 0에 가깝게 줄였다고 해요. 비유하자면, 통역사가 내 말이 끝나기를 기다렸다가 통역하는 게 아니라, 말하는 동시에 옆에서 거의 실시간으로 받아 적어주는 느낌인 거예요.

2단계 — 'Fluid Intelligence'라는 후처리 AI

그런데 음성을 글자로 바꾸기만 하면 끝이 아니에요. 우리가 말할 때를 떠올려 보세요. 쉼표나 마침표를 일일이 "쉼표", "마침표"라고 말하지 않잖아요? 대문자도 신경 안 쓰고, "음...", "그러니까" 같은 군더더기도 잔뜩 섞이죠. 그냥 받아쓰기만 하면 정돈 안 된 날것의 문장이 나와요.

여기서 등장하는 게 Fluid Intelligence예요. 이건 받아쓴 텍스트를 자동으로 다듬어주는 로컬 AI 계층이에요. 구체적으로는 이런 일을 해요.

이 구도에서 FluidVoice는 "빠르고(Parakeet), 똑똑하게 다듬어주고(Fluid Intelligence), 그러면서도 데이터를 안 내보내는" 조합을 노려요. 즉 "로컬의 프라이버시 + 클라우드급 다듬기"라는, 그동안 양립하기 어려웠던 두 가치를 한 앱에서 잡으려는 시도인 거예요. 최근 애플이 칩(M 시리즈)에 AI 연산 능력을 잔뜩 넣으면서 "기기 안에서 AI 돌리기"가 현실적으로 가능해진 흐름과도 딱 맞아떨어지고요.

한국 개발자에게 주는 시사점

자, 그럼 우리 입장에서 어떻게 봐야 할까요. 현실적인 얘기부터 솔직하게 할게요.

첫째, 한국어 지원은 냉정하게 따져봐야 해요. Parakeet 계열 모델은 전통적으로 영어 중심이에요. FluidVoice가 "언어 우선 설정(language-first setup)"으로 여러 언어를 고를 수 있게 해놨지만, 한국어 받아쓰기 정확도는 모델 선택에 따라 영어만큼 매끄럽지 않을 수 있어요. 그래서 한국어 회의록 받아쓰기 같은 용도라면 기대치를 살짝 낮추고, 꼭 직접 테스트해본 뒤 판단하길 권해요.

둘째, 영어 작업에는 지금 당장 써먹기 좋아요. 예를 들어 영문 커밋 메시지 쓰기, GitHub 이슈나 PR 설명 작성, 영어로 슬랙(Slack) 답장하기, 영문 기술 문서 초안 잡기 같은 상황이요. 손목이 아프거나 타이핑이 느린 분, 또는 "일단 말로 쏟아내고 나중에 다듬는" 글쓰기 스타일인 분에게는 생산성 도구로 충분히 매력적이에요. 게다가 사내 보안 정책상 "음성을 외부 서버로 보내면 안 되는" 환경이라면, 완전 로컬이라는 점이 결정적인 장점이 되죠.

셋째, 온디바이스 AI를 공부하는 살아있는 교재예요. 코드가 GPLv3로 다 열려 있고 Swift로 짜여 있어서, 맥 앱이 어떻게 마이크 입력을 받고, 음성 모델을 로컬에서 돌리고, 결과를 후처리하는지 실제 구현을 들여다볼 수 있어요. 온디바이스 AI에 관심 있다면 이런 학습 로드맵을 추천해요. (1) ASR이 뭔지 Whisper/Parakeet 개념 잡기 → (2) 애플의 CoreML이나 MLX로 로컬에서 모델 돌려보기 → (3) FluidVoice 소스에서 오디오 캡처와 추론 파이프라인이 어떻게 연결되는지 따라가 보기. 이 순서면 "클라우드 없이 AI 돌리기"의 감을 제대로 잡을 수 있어요.

마무리: 'AI는 클라우드'라는 공식이 흔들리고 있어요

FluidVoice가 보여주는 가장 큰 메시지는 사실 받아쓰기 그 자체가 아니에요. "쓸만한 AI 경험이 더 이상 클라우드를 꼭 필요로 하지 않는다"는 신호예요. 불과 몇 년 전만 해도 "제대로 된 AI = 거대한 서버"라는 공식이 당연했는데, 이제는 내 노트북 안에서 지연 거의 없이 음성을 받아쓰고, 문장까지 다듬어주는 시대가 온 거죠. 프라이버시를 지키면서도 성능을 포기하지 않아도 되는, 꽤 의미 있는 전환점이에요.

물론 비공개 런타임이라는 모델이 오픈소스 정신과 어떻게 균형을 맞춰갈지, 한국어 같은 비영어권 언어 지원이 얼마나 따라올지는 앞으로 지켜봐야 할 숙제예요. 그래도 "무료 + 로컬 + 빠름"이라는 조합 자체가 받아쓰기 시장의 기준을 한 단계 끌어올린 건 분명해 보여요.

여러분은 어떠세요? 음성으로 코딩하거나 문서를 쓰는 워크플로우, 한번 시도해본 적 있나요? 아니면 "손으로 타이핑하는 게 결국 제일 빠르다"는 쪽인가요? 그리고 음성처럼 민감한 데이터를 외부로 안 보내는 "완전 로컬 AI"가 앞으로 어떤 분야까지 퍼질 거라고 보시는지, 여러분의 생각이 궁금해요. 댓글로 경험을 나눠주세요. 🎙️


🔗 출처: GitHub

SOURCE · GITHUB
원문 전체 보기 → https://github.com/altic-dev/FluidVoice
SHARE
처리 중...