들어가며: "8일 동안 쉬지 않고"가 왜 그렇게 대단할까?
혹시 영화 <아이, 로봇>이나 <엑스 마키나> 같은 거 보면서 "저런 휴머노이드 로봇이 진짜로 우리 옆에서 일하는 시대는 언제 올까?" 하고 상상해본 적 있으신가요. 그런데 그 상상이 점점 현실에 가까워지고 있다는 신호가 또 하나 나왔어요. Figure AI라는 미국의 휴머노이드 로봇 스타트업이 자기네 로봇들이 200시간, 그러니까 하루 8시간씩 8일을 꼬박 택배를 분류하고 옮기는 작업을 해냈다고 발표한 거거든요.
"에이, 그게 뭐 대단한 일이야? 컨베이어 벨트가 더 빠르겠다" 싶을 수도 있는데요. 사실 이게 보기보다 엄청난 사건이에요. 왜냐하면 휴머노이드 로봇, 그러니까 사람처럼 두 발로 서서 두 팔로 일하는 로봇이 연구실 데모가 아닌 실제 산업 현장에서 하루 종일, 며칠씩 이어서 일했다는 의미거든요. 지금까지 우리가 본 휴머노이드 로봇들은 거의 다 "5분짜리 화려한 데모"였어요. 보스턴 다이내믹스의 아틀라스가 백덤블링하는 영상, 테슬라 옵티머스가 계란을 집는 장면, 다 멋있죠. 근데 그게 끝이에요. 한 시간 뒤에도 잘 하고 있을지, 배터리는 버틸지, 고장 안 나는지는 아무도 안 보여줬어요.
그래서 "200시간"이라는 숫자는 단순한 자랑이 아니라, 휴머노이드 로봇이 진짜 상용화 단계에 들어왔다는 선언에 가까워요. 오늘은 이 발표가 왜 업계를 흔들고 있는지, Figure AI의 기술은 어떻게 동작하는지, 그리고 한국 개발자 입장에서 이 흐름을 어떻게 바라봐야 할지 차근차근 풀어볼게요.
Figure AI는 누구고, 이번엔 뭘 한 거야?
먼저 Figure AI 회사부터 짚고 갈게요. 이 회사는 2022년에 설립된 미국 스타트업인데요. 창업자 브렛 애드콕(Brett Adcock)은 그 전에 도심 비행 택시 회사 Archer Aviation을 만든 사람이에요. "하늘 다음은 휴머노이드"라는 생각으로 회사를 차린 거죠. 지금은 OpenAI, MS, Nvidia, Jeff Bezos 같은 어마어마한 투자자들이 돈을 넣었고, 기업 가치가 거의 40조 원 수준까지 갔어요. BMW, UPS 같은 회사들과 파일럿(시범 도입) 계약도 맺었고요.
이번에 공개한 영상은 그들의 최신 모델인 Figure 02(또는 후속 버전 Figure 03 라인) 여러 대가 물류 창고에서 택배 박스를 분류하는 모습이에요. 컨베이어 벨트에서 박스를 집어 들고, 바코드를 읽고, 정해진 위치로 옮기고, 슬립(송장)이 위로 가게 방향까지 맞추는 작업을 반복해요. 이걸 누적 200시간, 그러니까 하루 8시간씩 약 8일을 이어서 돌렸다는 거예요.
언뜻 들으면 "그냥 기계가 시킨 거 한 거 아냐?" 싶지만, 실제로는 훨씬 더 복잡한 작업이에요. 박스 크기가 다 다르거든요. 어떤 건 말랑한 비닐 봉투고, 어떤 건 무거운 종이상자고, 어떤 건 길쭉한 튜브예요. 각각을 잡는 힘도 다르고, 들어 올리는 각도도 달라야 해요. 이걸 사람이 일일이 코딩해서 가르치는 게 아니라, 로봇이 카메라로 보고 알아서 판단하는 거예요. 그게 핵심이에요.
기술 분석: "Helix"라는 두뇌가 진짜 주인공
VLA 모델이 뭐냐면
Figure AI가 자랑하는 기술의 핵심은 Helix라는 자체 개발 AI 모델이에요. 이건 VLA(Vision-Language-Action) 모델이라는 종류인데요. 이름부터 좀 어렵죠. 쉽게 풀어볼게요.
- Vision(시각): 카메라로 본 영상을 이해해요. "앞에 갈색 박스가 있고, 그 위에 송장이 붙어 있네" 같은 걸 파악하는 거죠.
- Language(언어): 사람이 말로 시키는 명령을 알아들어요. "저 박스를 오른쪽 컨베이어로 옮겨줘" 라고 하면 이해해요.
- Action(행동): 그걸 받아서 실제로 팔, 손가락, 다리를 어떻게 움직일지 명령을 만들어내요.
- System 2 (느린 뇌): 약 7-9Hz로 동작해요. 그러니까 1초에 7-9번 정도 생각해요. 이게 "무엇을 할지" 결정하는 부분이에요. "지금 박스를 잡아야 하나, 옆에 있는 봉투를 먼저 처리해야 하나" 같은 판단을 해요. 큰 그림을 보는 거죠.
- System 1 (빠른 뇌): 약 200Hz로 동작해요. 1초에 200번 명령을 내려요. 이건 "어떻게 움직일지"를 처리해요. 손가락 관절 각도, 손목 회전, 발 위치를 매 순간 미세 조정하는 거예요.
- Imitation Learning(모방 학습): 사람 시범 데이터로 행동을 배우는 기법
- Reinforcement Learning from Human Feedback (RLHF): ChatGPT에도 쓰인 그 기법, 로봇 학습에도 핵심
- Diffusion Policy: 최근 로봇 행동 생성에 많이 쓰이는 모델
- Sim-to-Real: 시뮬레이션에서 학습한 걸 실제 로봇에 옮기는 기술
- 1단계: PyTorch로 기본 비전 모델(CNN, ViT) 다뤄보기
- 2단계: HuggingFace의 LeRobot 라이브러리 만져보기 (오픈소스 로봇 학습 프레임워크)
- 3단계: NVIDIA Isaac Sim 같은 시뮬레이터에서 가상 로봇 학습시켜보기
- 4단계: 저렴한 로봇 팔(SO-100, Koch v1.1 같은 오픈소스 하드웨어) 사서 직접 실험
- 여러분은 휴머노이드 로봇이 가장 먼저 "진짜로 쓸모 있게" 자리 잡을 분야가 어디라고 보세요? 공장? 가정? 의료? 아니면 전혀 다른 곳?
- 만약 회사에서 "우리도 로봇 도입 검토해보자"는 얘기가 나온다면, 어떤 작업부터 시작하는 게 맞을까요?
- 로봇이 사람 일자리를 대체한다는 우려, 진짜 현실이 될까요? 아니면 새 직업이 더 많이 생길까요? 여러분 생각이 궁금해요.
쉽게 비유하자면, 우리가 ChatGPT한테 글을 시키면 글로 답하잖아요? VLA 모델은 시각 정보까지 같이 보고 "행동"으로 답하는 AI예요. 입력은 카메라 + 음성, 출력은 "왼쪽 손목을 30도 돌리고, 손가락을 60% 힘으로 쥐어라" 같은 모터 명령인 거죠.
System 1과 System 2: 빠른 손, 느린 머리
Helix의 재밌는 점은 두 개의 뇌를 가지고 있다는 거예요. 인지심리학자 대니얼 카너먼의 책 <생각에 관한 생각>에 나오는 "빠른 사고(System 1)"와 "느린 사고(System 2)" 개념을 그대로 빌려왔어요.
왜 이렇게 둘로 나눴냐면, 사람도 그렇게 일하거든요. 우리가 컵을 잡을 때 "아 이건 도자기 컵이니까 조심히 잡아야지"는 머리로 천천히 생각하지만, 막상 손이 컵에 닿는 순간 손가락이 미끄러지면 무의식적으로 힘을 더 주잖아요. 그게 빠른 뇌가 하는 일이에요.
로봇한테 이걸 똑같이 적용한 이유는 계산 효율 때문이에요. 만약 손가락 하나 움직일 때마다 거대한 AI 모델을 다 돌리면 너무 느리고 전기를 많이 먹어요. 그래서 무거운 판단은 가끔만 하고, 자잘한 움직임은 가벼운 모델로 빠르게 처리하는 거예요.
End-to-End 학습이라는 게 뭐냐면
예전 로봇은 거의 다 규칙 기반(rule-based)이었어요. "카메라에서 박스를 인식하면, 손을 5cm 앞으로 뻗고, 그 다음 손가락을 닫고..." 이런 식으로 사람이 일일이 시나리오를 짜놨죠. 문제는 박스 위치가 5cm만 어긋나도 멈춰버리고, 새로운 모양의 박스가 오면 다시 코딩해야 해요.
Figure AI가 쓰는 방식은 End-to-End 학습이에요. "끝에서 끝까지"라는 뜻인데, 입력(카메라 영상)부터 출력(모터 명령)까지를 하나의 거대한 신경망으로 학습시키는 거예요. 사람이 중간 규칙을 만들지 않고, 데이터만 잔뜩 보여주면 알아서 패턴을 배우게 하는 거죠.
비유하자면, 운전을 배울 때 "왼쪽 깜빡이 켜고, 백미러 보고, 핸들 30도 꺾고..." 이런 매뉴얼로 가르치는 게 아니라, 그냥 옆에서 잘하는 사람 운전을 1만 시간 보여주고 "너도 비슷하게 해봐" 하는 거예요. 사람도 결국 그렇게 운전을 배우잖아요.
이걸 위해서 Figure AI는 수많은 사람 시범 데이터를 모았어요. 작업자가 VR 컨트롤러로 로봇을 원격 조종해서 "이런 식으로 박스를 잡으면 돼" 하고 보여주면, 그 데이터를 모아서 학습시키는 거죠.
200시간이 왜 그렇게 큰 의미인가
자, 이제 "왜 200시간이 사건인지" 본격적으로 짚어볼게요.
1) 통합 신뢰성(Reliability)의 증명
로봇 한 대가 1분 동안 작동하는 거랑 200시간 작동하는 거는 차원이 달라요. 왜냐하면 고장이 누적되거든요. 모터는 뜨거워지고, 베어링은 닳고, 배터리는 열화되고, 센서는 먼지 끼고, 소프트웨어는 메모리 누수가 생겨요. 5분짜리 데모에서는 절대 안 보이는 문제들이 몇 시간만 지나면 줄줄이 나타나요.
그래서 자동차 회사들이 "몇만 km 무사고 주행" 같은 기록에 그렇게 집착하는 거예요. 시간이라는 건 거짓말을 안 하거든요. 200시간을 버텼다는 건 하드웨어 안정성, 소프트웨어 견고함, 배터리 관리, 열 관리, 그리고 무엇보다 AI 모델이 다양한 상황에서 일관되게 동작한다는 걸 증명한 거예요.
2) 경제성의 문턱을 넘기 시작했다
사람이 물류 창고에서 일하면 시급 + 4대보험 + 휴게 시간 + 야간 수당이 들어요. 미국 기준으로 시간당 약 20-25달러 정도 해요. 만약 휴머노이드 로봇 한 대가 사람의 70% 속도로 일하고, 하루 16시간 돌릴 수 있고, 고장 없이 1년을 버틴다면? 그 로봇 값이 5천만 원~1억 원이어도 2-3년 안에 본전을 뽑아요. 이게 "경제적 임계점"이에요.
Figure AI는 이번 200시간 데모로 "우리 로봇은 이제 사람을 대체할 수 있는 신뢰성에 도달했다"는 메시지를 시장에 던진 거예요. 투자자, BMW 같은 잠재 고객, 그리고 경쟁사들이 다 이 신호를 보고 있어요.
3) 데이터 플라이휠의 시동
여기가 진짜 무서운 부분이에요. 로봇이 실제 현장에서 200시간을 일했다는 건, 200시간 분량의 진짜 작업 데이터가 쌓였다는 뜻이거든요. 그 데이터로 Helix 모델을 다시 학습시키면 더 똑똑해지고, 더 똑똑해진 로봇이 더 다양한 작업을 하면 또 더 많은 데이터가 쌓이고... 이걸 데이터 플라이휠(flywheel, 한번 돌기 시작하면 가속도가 붙는 바퀴)이라고 해요.
테슬라가 자율주행에서 다른 회사들을 압도하는 이유가 바로 이거예요. 도로에 굴러다니는 테슬라 차들이 매일 수억 마일씩 데이터를 모아주거든요. 휴머노이드 로봇 시장에서 이 플라이휠을 가장 먼저 돌리기 시작한 회사가 시장을 가져갈 가능성이 높아요.
경쟁 구도: 누가 누구랑 싸우고 있나
휴머노이드 로봇 시장은 지금 정말 치열해요. 주요 플레이어들을 정리해볼게요.
Tesla Optimus
일론 머스크가 "테슬라의 미래는 차가 아니라 로봇"이라고 외치는 그 프로젝트예요. 강점은 테슬라가 가진 자율주행 AI 기술과 자체 칩(Dojo) 인프라. 약점은 아직 실제 양산 라인 투입 사례가 적다는 거. 데모는 멋진데 신뢰성 데이터가 부족해요.Boston Dynamics Atlas
원조 격이죠. 백덤블링, 파쿠르 같은 화려한 운동 능력은 압도적이에요. 최근에 유압식에서 전기 모터식으로 완전히 바꿨고, 현대차 그룹 산하라서 자동차 공장 투입을 노리고 있어요. 다만 "운동 능력 ≠ 일머리"라서 정밀 조작 분야에선 Figure에 밀린다는 평가도 있어요.Agility Robotics Digit
"걷는 두 다리 + 상체" 형태로 이미 Amazon 창고에서 시범 운용 중이에요. Figure보다 더 일찍 실전 투입을 시작한 케이스. 다만 사람 같은 외형은 아니라서 "휴머노이드"라기보단 "이족 보행 물류 로봇"에 가까워요.1X Technologies NEO
OpenAI가 투자한 노르웨이/미국 회사. 가정용 휴머노이드를 노린다는 게 차별점이에요. 산업 현장이 아니라 "집에서 빨래 개고 설거지하는 로봇"이 목표예요.중국 진영: Unitree, Fourier, UBTECH
중국은 가격 경쟁력으로 밀어붙이고 있어요. Unitree G1은 약 2천만 원대에 팔리는데, 미국 제품의 1/3 가격이에요. 성능은 좀 떨어져도 "일단 싸게 깔자" 전략.비유하자면 지금 휴머노이드 시장은 2000년대 초반 스마트폰 시장이랑 비슷해요. iPhone 나오기 전 다양한 회사들이 "이게 정답일까?" 하고 각자 다른 모양을 시도하던 그 시기. 누가 "iPhone 모먼트"를 만들어낼지 아직 안 정해졌어요. Figure의 200시간 데모는 거기에 한 발 다가선 신호 정도로 보면 돼요.
한국 개발자에게 주는 시사점
1) 로보틱스는 더 이상 "기계공학 전공자만의 영역"이 아니에요
예전엔 로봇 = 기계공학 + 제어공학이었어요. 근데 지금은 로봇의 80%가 소프트웨어, 그중 절반이 AI예요. Figure의 Helix를 만든 사람들 이력서를 보면 대부분 딥러닝, 강화학습, 컴퓨터 비전 전공이에요. 한국에서 ML 엔지니어로 일하고 있다면, 이쪽 분야로 커리어 확장이 충분히 가능해요.
구체적으로 공부하면 좋은 키워드:
2) 한국 산업과의 연결 지점
한국은 제조업 강국이에요. 현대차, 삼성, LG, 포스코 같은 회사들이 다 자동화에 엄청나게 투자하고 있고, 인구 감소로 공장 인력난이 심각해요. 휴머노이드 로봇이 가장 먼저 도입될 시장 중 하나가 한국이라고 봐도 무방해요. 현대차가 보스턴 다이내믹스를 인수한 이유도 같은 맥락이에요.
만약 여러분이 지금 백엔드, 프론트엔드, 데이터 엔지니어링 같은 분야에서 일하고 있다면, "로봇 데이터 인프라"라는 새로운 영역에 관심을 가져볼 만해요. 로봇 한 대가 하루에 만들어내는 데이터가 테라바이트 단위거든요. 이걸 저장하고, 라벨링하고, 학습 파이프라인에 태우는 일이 거대한 새 시장이 될 거예요.
3) 당장 손에 잡히는 학습 로드맵
특히 LeRobot은 진입 장벽이 정말 낮아져서, Hugging Face에 올라온 사전학습 정책(policy)을 그대로 가져다가 자기 로봇에 돌려볼 수 있어요. 5년 전이라면 박사 학위 받아야 했을 일이 지금은 주말 프로젝트로 가능해진 거예요.
마무리: 우리가 보고 있는 건 "산업혁명 3.5"일지도 몰라요
2007년 iPhone이 나왔을 때 사람들은 "비싼 장난감"이라고 했어요. 2015년 ChatGPT 같은 LLM의 전신 모델들이 나왔을 때도 "신기한 챗봇" 정도였죠. 근데 10년 후 우리 삶이 어떻게 바뀌었는지 다들 아시잖아요.
Figure AI의 200시간 데모는 그 자체로는 작은 마일스톤이지만, "로봇이 진짜 일을 한다"는 시대의 시작점일 수 있어요. 5년 안에 우리는 식당, 창고, 공항, 어쩌면 집에서도 휴머노이드 로봇을 만나게 될 거예요. 그게 우리 일자리를 위협할지, 아니면 더 가치 있는 일에 집중하게 해줄지는 솔직히 아직 아무도 몰라요. 다만 분명한 건, 이 흐름을 외면하기엔 너무 큰 파도가 오고 있다는 거예요.
개발자로서 우리가 할 수 있는 건 두 가지예요. 하나는 이 기술을 만드는 쪽에 참여하는 거. 또 하나는 이 기술을 활용하는 쪽에서 새로운 가치를 만드는 거. 어느 쪽이든, 지금부터 관심을 두고 차근차근 따라가다 보면 5년 뒤엔 분명 다른 풍경이 보일 거예요.
함께 이야기 나눠봐요
🔗 출처: Reddit
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공