뉴런 두 개로 자전거를 탈 수 있다? 신경망의 최소 단위를 탐구한 흥미로운 연구

사람도 어려운 자전거 타기를 인공 뉴런 두 개로

자전거 타기, 생각보다 어려운 운동이에요. 균형을 잡으면서 페달을 밟고 핸들 방향을 미세하게 조정해야 하는 복합적인 작업이거든요. 사람도 처음 배울 땐 며칠씩 넘어지면서 익히죠. 그런데 최근 Fermat's Library에 다시 회자된 한 논문이 이걸 "단 두 개의 뉴런"으로 해낼 수 있다는 걸 보여줘서 신경망 연구자들 사이에서 다시 주목받고 있어요. 제목 그대로 "It Takes Two Neurons to Ride a Bicycle"이에요.

요즘 GPT-4나 Claude 같은 대형 모델은 수천억 개의 파라미터를 갖고 있고, 자율주행 시스템은 수억 개의 가중치를 가진 신경망을 굴려요. 그래서 "AI = 거대한 신경망"이라는 인식이 자리 잡았는데, 이 연구는 정반대의 질문을 던져요. "어떤 작업을 수행하는 데 정말로 필요한 최소 뉴런 수는 몇 개일까?" 이런 질문은 신경과학에서도 중요해요. 초파리, 선충 같은 작은 동물들은 신경세포가 수백 개에서 수십만 개밖에 안 되는데도 복잡한 행동을 하거든요.

어떻게 뉴런 두 개로 자전거를 타게 만들었을까

연구의 핵심 아이디어는 "문제를 잘 정의하면 해법은 단순해진다"는 거예요. 연구진은 자전거의 물리 모델(질량, 관성, 핸들 각도, 속도)을 수식으로 정리한 다음, 이 시스템을 안정적으로 제어하기 위한 최소한의 피드백 회로를 설계했어요. 이게 뭐냐면, 자전거가 한쪽으로 기울어지는 걸 감지해서 핸들을 어느 정도 꺾어야 균형을 회복할 수 있는지를 계산하는 회로예요.

놀랍게도 이 제어 회로는 단 두 개의 뉴런으로 충분했어요. 첫 번째 뉴런은 자전거의 기울기와 기울어지는 속도(각속도)를 받아서 비례 항을 계산하고, 두 번째 뉴런은 그 결과를 받아서 적분 항을 더해 핸들 토크를 출력하는 식이에요. 제어공학에서 쓰는 PID 제어기(비례-적분-미분 제어기) 중 PI 컨트롤러랑 거의 똑같은 구조죠. 즉, 자전거 균형 제어라는 문제가 본질적으로 PID 제어와 같은 수학적 구조를 갖고 있고, 그 구조를 두 개의 뉴런으로 표현할 수 있다는 게 핵심이에요.

물론 여기서 말하는 "뉴런"은 우리 뇌 속의 생물학적 뉴런을 단순화한 수학 모델이에요. 입력의 가중합을 계산하고, 활성화 함수를 거쳐 출력을 내보내는 그 단위요. 그래서 이 연구가 "우리 뇌도 두 개의 뉴런만 있으면 자전거를 탈 수 있다"는 뜻은 아니에요. "이 작업의 최소 계산 복잡도가 이만큼이다"라는 수학적 증명에 가까운 결과죠.

큰 모델이 능사가 아니라는 메시지

이 연구가 흥미로운 건 요즘 AI 트렌드와 정반대 방향을 가리킨다는 점이에요. "파라미터 수 = 성능"이라는 등식이 거의 신앙처럼 자리 잡은 지금, "잘 설계된 작은 모델이 큰 모델만큼, 혹은 더 잘 할 수 있다"는 증거가 되거든요. 비슷한 흐름으로 최근 몇 년간 화제가 된 연구들이 있어요. Liquid Neural Networks(MIT의 Daniela Rus 그룹)는 19개의 뉴런으로 자율주행 차량의 차선 유지를 해냈고, Neural ODE 계열 연구는 연속 시간 동역학을 활용해서 적은 파라미터로 복잡한 동작을 학습시키는 데 성공했어요.

같은 맥락에서 TinyML이라는 분야 전체가 이 방향성을 추구하고 있어요. 마이크로컨트롤러처럼 메모리가 KB 단위인 작은 칩 위에서 추론을 돌리려면 모델이 극도로 작아야 하거든요. 음성 인식 wake word 감지("하이 시리" 같은 거)는 수십 KB짜리 모델로도 충분히 동작해요. 또 신경과학에서는 초파리의 약 13만 개 뉴런 커넥톰 전체가 매핑되면서, "이 작은 뇌가 어떻게 정교한 비행 제어를 하는가"를 역설계하는 연구가 활발해요.

개발자가 얻을 수 있는 인사이트

실무 관점에서 이 연구는 우리에게 두 가지를 일깨워줘요. 첫째, "문제를 잘 정의하면 모델 크기를 극적으로 줄일 수 있다"는 점이에요. 입력 특징(feature)을 잘 골라내고, 도메인 지식을 모델 구조에 녹여넣으면 작은 모델로도 충분한 경우가 많아요. 모든 걸 end-to-end 학습으로 해결하려는 유혹에서 한 발 떨어져서, "이 문제의 본질적인 자유도는 몇 차원인가?"를 먼저 생각해보면 의외로 단순한 해법이 보이거든요.

둘째, 엣지 디바이스나 모바일 환경에서 AI를 돌려야 하는 상황이라면 이런 접근이 직접적인 가치를 줍니다. IoT 센서, 웨어러블, 로봇 같은 환경은 GPU도 없고 배터리도 빠듯하잖아요. 한국에는 라즈베리파이나 ESP32로 사이드 프로젝트 하시는 분들 많은데, "꼭 GPT를 API로 부르지 않아도 되는 문제는 뭘까?"를 고민하다 보면 작은 신경망이나 고전적인 제어 이론으로 충분한 영역이 꽤 있어요. 드론 제어, 모터 제어, 간단한 음성 인식 같은 게 대표적이고요.

또 한 가지, 이 연구는 "해석 가능성(interpretability)" 측면에서도 의미가 커요. 뉴런 두 개짜리 모델은 그 내부를 사람이 완전히 이해할 수 있어요. 어떤 입력이 어떤 가중치로 어떤 결정을 내리는지 다 추적 가능하죠. 의료나 금융처럼 "왜 그렇게 판단했는지 설명할 수 있어야 하는" 영역에서는 작고 해석 가능한 모델이 큰 블랙박스보다 훨씬 가치 있을 수 있어요.

마무리

자전거를 두 개의 뉴런으로 탄다는 발견은 단순히 신기한 학술 결과가 아니라, AI 설계 철학에 대한 질문이에요. "더 크게"만이 답이 아니라, "더 영리하게, 더 작게"가 답일 수 있는 영역이 분명히 있다는 거죠. 여러분이 만들고 있는 모델이나 시스템에서, 혹시 필요 이상으로 복잡하게 만든 부분은 없을까요? 그리고 LLM이 모든 걸 삼키는 시대에, 작은 전용 모델의 자리는 어떻게 유지될 수 있을까요?

🔗 출처: Hacker News

이 글도 읽어보세요