구글 딥마인드의 Gemini Robotics-ER 1.6 — AI가 로봇 몸을 가지면 뭐가 달라질까

로봇에 두뇌를 이식하는 시대

구글 딥마인드가 Gemini Robotics-ER 1.6을 발표했어요. 이름에서 짐작할 수 있듯이, Gemini 모델을 로봇의 두뇌로 쓸 수 있게 만든 프로젝트예요. ER은 Embodied Reasoning의 약자인데, "체화된 추론"이라는 뜻이에요. 쉽게 말하면, AI가 텍스트나 이미지만 처리하는 게 아니라 물리적인 몸(로봇)을 통해 실제 세계를 이해하고 행동할 수 있게 한다는 거예요.

지금까지 AI와 로봇은 사실 꽤 따로 놀았거든요. ChatGPT나 Gemini 같은 언어 모델은 텍스트로 대화하고, 산업용 로봇은 미리 프로그래밍된 동작을 반복하고. 이 두 세계를 합치려는 시도가 계속 있었는데, Gemini Robotics-ER은 그 중에서도 꽤 의미 있는 진전을 보여주고 있어요.

어떤 점이 새로운가

Gemini Robotics-ER 1.6의 핵심은 멀티모달 이해와 로봇 제어를 하나의 모델에서 처리한다는 점이에요. 멀티모달이 뭐냐면, 텍스트, 이미지, 소리 등 여러 종류의 정보를 동시에 이해하는 능력이에요. 여기에 로봇의 센서 데이터(카메라, 촉각, 관절 각도 등)와 액추에이터 제어(모터를 어떻게 움직일지)까지 통합한 거예요.

기존 로봇 AI 시스템은 대부분 파이프라인 방식이었어요. 카메라로 물체를 인식하는 모듈, 경로를 계획하는 모듈, 모터를 제어하는 모듈이 따로따로 있고, 이걸 순서대로 연결하는 방식이었죠. 마치 릴레이 경주처럼 바톤을 넘기면서요. 문제는 한 단계에서 실수하면 그게 그대로 다음 단계로 전달된다는 거예요.

Gemini Robotics-ER은 이걸 하나의 큰 모델(end-to-end 모델)로 처리하려고 해요. 카메라 이미지를 보고, 사람의 자연어 지시를 이해하고, 그에 맞는 로봇 행동을 직접 생성하는 거예요. "저 탁자 위에 있는 빨간 컵을 여기로 가져와줘"라고 말하면, 컵을 인식하고, 어떻게 잡을지 계획하고, 실제로 팔을 움직이는 것까지 하나의 모델이 처리하는 거죠.

특히 1.6 버전에서 강조하는 건 일반화(Generalization) 능력이에요. 이전에 본 적 없는 물체나 환경에서도 합리적으로 행동할 수 있다는 거예요. 예를 들어 훈련 데이터에 없던 모양의 물건도 "잡을 수 있는 부분"을 스스로 파악해서 집어올릴 수 있는 거죠. 이게 왜 중요하냐면, 실제 세계는 공장 라인과 다르게 예측 불가능한 상황이 넘치기 때문이에요.

경쟁 지형은 어떤가

로봇 AI 분야는 지금 정말 뜨거운 경쟁이 벌어지고 있어요. 테슬라의 Optimus 휴머노이드 로봇, Figure AI의 Figure 02, 그리고 중국에서 쏟아지는 다양한 휴머노이드 로봇들까지. 하드웨어 쪽은 엄청나게 많은 회사가 뛰어들고 있는데, 결국 승부를 가르는 건 소프트웨어, 즉 AI 두뇌라는 게 업계의 공통된 시각이에요.

이 관점에서 구글 딥마인드는 독특한 위치에 있어요. 자체적으로 세계 최고 수준의 대규모 언어/멀티모달 모델(Gemini)을 가지고 있고, DeepMind 시절부터 쌓아온 강화학습과 로봇 연구 역량도 있거든요. 2023년의 RT-2(Robotic Transformer 2)부터 이어지는 연구 흐름의 최신 버전이 바로 이 Gemini Robotics-ER이에요.

반면 OpenAI는 로봇 분야에서는 상대적으로 조용한 편이에요. 2021년에 로보틱스 팀을 해체한 적이 있고, 최근에는 다시 관심을 보이고 있지만 구글만큼의 구체적인 결과물은 아직 없어요. Meta도 연구는 활발하지만 실제 로봇 제품보다는 기초 연구에 집중하고 있는 상황이고요.

한국 개발자에게 주는 시사점

한국은 제조업 강국이고, 산업용 로봇 도입률이 세계 최고 수준이에요. 현대로보틱스, 두산로보틱스, 레인보우로보틱스 같은 로봇 회사들도 활발하게 활동하고 있죠. 그래서 로봇 AI의 발전은 한국 개발자에게 남의 이야기가 아니에요.

당장 실무에서 쓸 수 있는 건 아니지만, 이 방향을 주시해야 하는 이유가 있어요. 첫째, 로봇 AI 분야에서 시뮬레이션 환경 개발이 점점 중요해지고 있어요. 실제 로봇으로 학습하는 건 비싸고 위험하기 때문에, NVIDIA의 Isaac Sim이나 구글의 시뮬레이션 환경에서 먼저 훈련하고 실제 로봇에 이식하는 방식(sim-to-real transfer)이 표준이 되고 있거든요. 3D 시뮬레이션이나 물리 엔진에 관심 있는 개발자라면 이 분야에 기회가 있어요.

둘째, MCP나 API를 통해 로봇을 제어하는 소프트웨어 인터페이스 개발도 점점 중요해질 거예요. 로봇이 "말을 알아듣는" 시대가 오면, 로봇에게 작업을 지시하는 소프트웨어를 만드는 것도 하나의 큰 영역이 될 테니까요.

셋째, 이 분야의 논문과 기술 블로그를 읽을 때 알아두면 좋은 키워드가 있어요. Embodied AI, end-to-end robot learning, sim-to-real transfer, vision-language-action model 같은 용어가 자주 등장하는데, 이런 개념들을 미리 익혀두면 이 분야의 흐름을 따라가기 한결 수월해요.