처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.05.20 105

구글 딥마인드 'Gemini Omni' 공개, 진짜 옴니모달의 시대를 여는가

Hacker News 원문 보기

무슨 일이 벌어졌나

구글 딥마인드가 Gemini Omni라는 새로운 모델을 공개했어요. 이름에서 짐작이 되시겠지만, '옴니(omni)'는 '모든 것'이라는 뜻이거든요. 그러니까 텍스트, 음성, 영상, 이미지를 한 번에 다 처리하는 모델이라는 얘기예요.

지금까지 우리가 ChatGPT나 Gemini를 쓸 때는 텍스트는 텍스트 모델, 이미지 인식은 비전 모델, 음성은 음성 모델 식으로 따로따로 동작했어요. 물론 GPT-4o가 멀티모달이라고 했지만, 내부적으로는 여전히 모달리티 간 변환이 일부 끼어 있었죠. Gemini Omni는 처음부터 모든 입력을 하나의 표현 공간(latent space)에서 다루도록 설계되었다는 점이 핵심 차별점이에요.

기술적으로 뭐가 다른가

옴니모달 모델이라는 게 뭔지 좀 더 풀어볼게요. 기존 멀티모달 모델은 음성을 텍스트로 변환(STT)하고, 그 텍스트를 처리한 다음, 다시 음성으로 합성(TTS)하는 파이프라인을 거치는 경우가 많았어요. 이러면 지연 시간(latency)이 커지고, 음성의 톤이나 감정 같은 비언어적 정보가 중간에 다 사라져버려요.

옴니모달은 이걸 한 방에 해결해요. 음성 신호를 토큰처럼 직접 처리하고, 영상의 프레임 흐름을 텍스트와 동시에 이해하고, 응답도 텍스트나 음성으로 즉시 만들어내요. 사람이 말할 때 표정을 짓고 손짓을 하는 걸 동시에 인식하는 식이죠. 사용자가 "이거 봐봐" 하면서 카메라를 책 페이지에 들이대면, 모델이 페이지를 읽으면서 동시에 사용자의 말투까지 반영해 답하는 거예요.

특히 실시간성이 중요한데요. 친구랑 화상통화하면서 책 페이지를 보여주면, 친구가 "그거 어디 책이야?" 하고 자연스럽게 물어보잖아요. 그런 자연스러운 대화 흐름을 이제 AI랑도 할 수 있게 된다는 거예요. 100ms 이하의 응답 지연을 목표로 한다는 점이 일반 LLM과의 결정적 차이예요.

업계 흐름에서 어디쯤인가

OpenAI가 GPT-4o의 Realtime API를 발표한 게 시작이었고, 이후 Anthropic의 Claude도 음성 기능을 빠르게 추가하고 있어요. 메타는 Llama 멀티모달을 오픈소스로 풀고 있고, xAI의 Grok도 비전 기능을 강화하고 있죠. 사실상 빅테크 AI 경쟁이 '얼마나 자연스럽게 사람처럼 보고 듣고 말하느냐'로 옮겨가고 있어요.

구글이 강한 건 생태계 통합이에요. 안드로이드 폰, 픽셀 카메라, 유튜브, 구글 미트, 구글 글래스 후속 프로젝트까지 갖고 있잖아요. 카메라를 들이대면 바로 보고 듣고 답해주는 어시스턴트, 유튜브 영상을 함께 보면서 코멘트해주는 도우미 같은 시나리오가 그려져요. 모델 단독 경쟁이 아니라 디바이스와 서비스가 묶이는 싸움인 거죠.

한국 개발자에게는 어떤 의미?

API가 공개되면 우리도 바로 써볼 수 있어요. 활용 영역은 생각보다 넓은데요, 라이브 커머스 방송에서 시청자 음성 질문을 받고 화면 속 상품을 자동 인식해서 답하는 챗봇이라든지, 시각 장애인 보조 앱처럼 카메라로 본 장면을 즉시 설명해주는 서비스, 또는 키즈 영상 통화형 학습 콘텐츠 같은 것들이 떠올라요.

다만 옴니모달 API는 토큰 단가가 텍스트보다 훨씬 비싸요. 영상 1초가 텍스트 수백 토큰에 해당하기도 하거든요. 그래서 프로토타입 단계에서는 "이게 정말 실시간 옴니모달이 필요한 시나리오인가" 한 번 더 점검해보는 게 좋아요. 단순히 텍스트 + 이미지 한 장 정도면 기존 Vision 모델로도 충분한 경우가 많아요. 또 음성 데이터는 개인정보보호법 이슈가 텍스트보다 훨씬 까다롭다는 점도 잊지 마세요.

마무리

옴니모달이 진짜로 일상 앱에 들어오면, 우리가 만드는 인터페이스의 문법이 또 한 번 바뀔 거예요. 키보드와 터치 입력보다 카메라와 마이크가 더 자연스러운 입력이 되는 시대 말이죠. 여러분은 옴니모달이 가장 빠르게 자리잡을 한국 서비스가 어디일 거라 생각하시나요?


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.