구글이 또 만들었다, 'Flow Music' — AI 작곡 전쟁에 합류한 빅테크의 한 수

무슨 일이 벌어진 거냐면

구글이 flowmusic.app이라는 도메인으로 새로운 AI 음악 생성 서비스를 공개했어요. 이름은 Flow Music이고, 텍스트 프롬프트만 입력하면 풀 트랙에 가까운 음악을 만들어주는 도구예요. "몽환적인 신스웨이브에 808 베이스, 90초" 이런 식으로 입력하면 그 분위기에 맞는 곡이 뚝딱 나오는 거죠.

이게 왜 지금 주목할 만하냐면, 작년부터 Suno와 Udio라는 스타트업 두 곳이 AI 음악 생성 시장을 거의 양분하다시피 하고 있었거든요. 두 곳 다 음악 레이블들과 저작권 소송에 휘말려 있는 상황이고요. 그 와중에 구글이 자기 색깔로 본격 참전한 거예요. 사실 구글은 진작부터 MusicLM, AudioLM, 그리고 최근의 Lyria 모델까지 음악 생성 기술을 꾸준히 쌓아왔어요. Flow Music은 그 축적된 모델들을 일반 사용자가 쓸 수 있는 형태로 다듬어 내놓은 결과물로 보여요.

어떻게 동작하느냐

공식적인 모델 디테일은 다 공개되지 않았지만, 구글의 음악 생성 라인업을 보면 큰 그림은 짐작할 수 있어요. 최근 구글의 Lyria 2 모델은 보컬, 악기, 리듬을 분리해서 다룰 수 있는 멀티트랙 생성 능력을 지원해요. 이게 뭐냐면, 기존 모델들은 그냥 한 덩어리 오디오를 만들어냈는데, 이제는 "드럼만 다시 뽑아줘" 같은 부분 편집이 가능해졌다는 거예요. DAW(디지털 오디오 워크스테이션, 큐베이스나 로직 같은 작곡 프로그램)를 써본 분들이라면 트랙 분리가 얼마나 큰 의미인지 바로 와닿을 거예요.

프롬프트도 단순한 장르 키워드만 받는 게 아니라 곡 구조(인트로-벌스-코러스-브릿지)나 BPM, 키, 분위기 변화 지점까지 지정할 수 있도록 진화하고 있어요. Flow Music은 이런 컨트롤성을 일반 유저 친화적으로 풀어낸 인터페이스를 제공해요. 결과물은 24kHz 또는 48kHz 스테레오 오디오로 나오는 게 보통이고, 워터마크 기술인 SynthID가 박혀 있을 가능성이 높아요. SynthID는 사람 귀에는 들리지 않지만 기계가 "이건 AI가 만든 거다"를 검출할 수 있게 하는 워터마크인데, 구글이 자기네 생성형 AI 결과물에 거의 표준으로 박고 있는 기술이에요.

경쟁사들과 비교하면

Suno는 "누구나 30초 만에 곡 한 곡"이라는 컨셉으로 사용자 친화성에 올인한 서비스예요. 가사까지 알아서 써주고 보컬도 제법 자연스러워요. Udio는 좀 더 음악 퀄리티에 무게를 뒀고, 프롬프트 컨트롤이 정교한 편이고요. 두 곳 모두 학습 데이터에 저작권 있는 음원이 들어갔다는 의혹으로 RIAA(미국 음반산업협회) 소속 메이저 레이블들과 소송 중이에요.

구글의 강점은 유튜브와의 연결고리예요. 유튜브는 이미 음악 레이블들과 광범위한 라이선스 계약을 맺고 있고, AI 음악에 대한 "드림 트랙" 같은 실험도 진행해왔거든요. Flow Music이 어디까지 라이선스 클리어된 데이터로 학습됐는지는 두고 봐야 하지만, 적어도 법적 분쟁의 리스크는 스타트업들보다 잘 관리할 가능성이 커요. Meta의 MusicGen, Stability AI의 Stable Audio도 경쟁선상에 있는데, 이들은 오픈 모델 진영이라 결이 좀 달라요.

한국 개발자에게 주는 의미

게임 개발하시는 분들, 광고 영상 만드는 마케팅 팀, 인디 콘텐츠 크리에이터에게는 진짜 실용적인 도구예요. 저작권 안전한 BGM을 빠르게 뽑아 쓰는 워크플로는 이미 산업 표준으로 자리잡고 있고, Flow Music이 API를 열어주면 한국의 숏폼 콘텐츠나 모바일 게임 사운드 트랙 작업에 바로 들어올 가능성이 높아요. 다만 한국은 한국음악저작권협회(KOMCA)와 산하 조직들의 가이드라인이 아직 AI 음악에 대해 보수적이라, 상업 이용 시에는 약관과 출처 표시 의무를 꼼꼼히 확인해야 해요.

개발자 관점에서 더 흥미로운 건 오디오 생성 모델의 아키텍처 트렌드예요. 디퓨전 기반인지, 토크나이저+자기회귀 트랜스포머 기반인지, 아니면 두 개를 결합한 하이브리드인지에 따라 GPU 사용량과 지연 시간이 크게 달라져요. 본인 프로젝트에 음악 생성을 끼워넣고 싶다면, 일단 MusicGen 같은 오픈 모델로 PoC를 해보고 품질이 부족할 때 상용 API로 갈아타는 식의 점진적 접근을 추천해요.