LingBot-Map: 로봇이 움직이면서 실시간으로 3D 지도를 그리는 새로운 방식

로봇의 눈, 어디까지 왔을까

자율주행차나 청소 로봇, 드론을 보면 한 가지 공통된 고민이 있어요. 바로 "내가 지금 어디 있고, 주변은 어떻게 생겼지?"라는 질문에 답하는 일이거든요. 이걸 전문 용어로는 SLAM(Simultaneous Localization and Mapping, 동시적 위치추정 및 지도작성)이라고 하는데요. 말 그대로 위치를 파악하는 동시에 주변 환경의 3D 지도를 그려나가는 기술이에요.

그런데 이게 생각보다 어려워요. 카메라 영상을 받아서 점들의 위치(point cloud)를 계산하고, 이걸 일관성 있게 이어붙여서 하나의 큰 지도로 만들어야 하거든요. 기존에는 보통 두 단계로 나눠서 처리했어요. 먼저 카메라가 본 장면에서 깊이를 추정하고, 그다음에 그 결과들을 후처리로 정렬하고 보정하는 식이었죠. 이번에 공개된 LingBot-Map은 이 두 단계를 하나로 합쳐서 영상 입력만으로 끊김 없이 3D 지도를 만들어내는 시스템이에요.

핵심은 '기하학적 맥락 트랜스포머'

LingBot-Map의 가장 큰 특징은 Geometric Context Transformer라는 구조를 쓴다는 점이에요. 트랜스포머는 요즘 ChatGPT 같은 거대 언어모델에서도 쓰이는 그 구조 맞습니다. 원래는 문장의 단어들 사이에서 어떤 단어가 어떤 단어와 관련이 깊은지 "주의(attention)"를 기울여 파악하는 방식인데요. 이걸 영상의 픽셀과 3D 공간의 점들 사이 관계에 적용한 거예요.

쉽게 비유하자면 이렇게 생각해 보세요. 우리가 방에 들어가서 가구 배치를 파악할 때, 의자 하나만 따로 보고 "여긴 의자가 있네" 하지 않잖아요. 의자는 책상 옆에 있고, 책상은 창문 아래 있고, 창문 너머엔 바깥이 보인다는 식으로 서로의 관계 속에서 공간을 이해하죠. 트랜스포머도 똑같이, 영상의 한 부분이 다른 부분들과 어떤 기하학적 관계인지 한꺼번에 보면서 깊이를 추정해요. 그래서 단순히 픽셀 하나씩 처리하는 방식보다 훨씬 일관성 있는 3D 구조를 얻을 수 있는 거죠.

스트리밍 방식이라는 게 왜 중요할까

또 하나 주목할 부분은 "스트리밍"이라는 단어예요. 기존 방식 중에는 영상을 다 찍고 나서 한꺼번에 처리하는(offline) 방식이 많았어요. 정확도는 좋지만 로봇이 실시간으로 움직이면서 판단해야 할 때는 쓰기 힘들죠. 반면 LingBot-Map은 카메라 프레임이 들어오는 족족 처리하면서, 새 프레임이 추가될 때마다 기존 지도와 자연스럽게 이어 붙여요. 마치 우리가 동영상을 다운로드 다 받고 보는 게 아니라 유튜브처럼 흘러나오는 대로 보는 것과 비슷한 개념이죠.

이게 가능하려면 새 프레임이 들어왔을 때 "아, 이건 아까 봤던 그 모서리네" 하고 인식하는 능력이 필수예요. 그래야 같은 곳을 두 번 매핑하지 않고, 카메라가 다시 돌아왔을 때 지도가 어긋나지 않거든요. 이걸 루프 클로저(loop closure)라고 하는데, 트랜스포머의 어텐션 메커니즘이 멀리 떨어진 프레임들 사이의 유사성도 포착할 수 있어서 이 부분에서 강점을 보이는 구조예요.

비슷한 기술들과 비교해 보면

이 분야에는 이미 강자들이 많아요. ORB-SLAM 계열은 특징점 기반의 전통적인 방식으로 오랫동안 쓰여왔고, 최근에는 NeRF(Neural Radiance Fields)나 3D Gaussian Splatting 같이 신경망으로 장면을 학습해 렌더링하는 기법이 화제였죠. 또 DUSt3R, MASt3R처럼 두 장의 사진만으로도 3D 구조를 뽑아내는 모델들도 잇따라 나왔어요.

LingBot-Map은 이 흐름의 연장선에 있으면서도, 특히 "실시간성"과 "기하학적 일관성"을 동시에 잡으려는 시도라는 점이 인상적이에요. NeRF 같은 건 결과물이 예쁘지만 학습에 시간이 오래 걸리고, 전통 SLAM은 빠르지만 텍스처가 부족한 환경에서 잘 못 보거든요. 트랜스포머 기반 접근은 그 중간에서 데이터로부터 배운 "공간 감각"을 활용해 양쪽의 장점을 취하려는 거죠.

한국 개발자가 눈여겨봐야 할 이유

한국에서도 자율주행, 물류 로봇, AR/VR 분야가 빠르게 성장하고 있어요. 네이버랩스, 삼성리서치, 현대차그룹 같은 곳에서 SLAM 엔지니어 채용 공고가 꾸준히 올라오고, 스타트업 중에서도 실내 배송 로봇이나 무인매장용 인지 기술을 만드는 팀이 늘고 있죠. 이런 곳에서 일하거나 관심이 있다면 트랜스포머 기반 SLAM은 꼭 트렌드로 짚고 넘어가야 해요.

당장 프로덕션에 적용하기엔 GPU 자원이나 엣지 디바이스 최적화 같은 숙제가 남아 있지만, 연구 단계에선 충분히 따라가 볼 만한 코드베이스예요. 깃허브에 코드가 공개되어 있다면 직접 카메라 영상을 넣어 돌려보면서 어떤 환경에서 잘 되고 어떤 환경에서 어려운지 감을 잡아두면, 나중에 본인 프로젝트에 응용할 때 큰 도움이 될 거예요.