서로 다른 LLM들이 숫자를 '똑같은 모양'으로 이해한다는 발견

어떤 발견일까

이번에 arXiv에 올라온 논문은 꽤 충격적인 결과를 담고 있어요. 제목을 거칠게 번역하면 "서로 다른 언어 모델들이 숫자를 비슷한 방식으로 표현한다"인데, 이게 왜 놀라운지부터 설명해드릴게요.

우리가 흔히 쓰는 GPT 계열, Llama 계열, Qwen 계열 모델들은 만든 회사도 다르고, 학습 데이터도 다르고, 구조도 조금씩 달라요. 그런데 막상 내부를 열어서 "이 모델은 숫자 7을 어떻게 표현하고 있나?"를 들여다봤더니, 전혀 다른 모델끼리도 거의 비슷한 기하학적 모양으로 숫자를 배치하고 있더라는 거예요. 마치 서로 상의도 안 했는데 같은 답을 적어낸 학생들 같은 상황이죠.

어떻게 확인했을까

연구진은 모델 안에서 숫자가 어떻게 내부 표현되는지를 뽑아냅니다. 이게 뭐냐면, LLM은 '7'이라는 토큰을 받으면 그걸 수백 차원짜리 벡터(임베딩)로 바꿔서 다음 계산에 쓰거든요. 그 벡터를 여러 숫자에 대해 뽑아서 공간에 찍어보면 점들이 어떤 패턴을 그립니다.

결과가 재미있어요. 모델들이 대체로 숫자를 나선(helix) 구조처럼 배치한다는 거예요. 나선의 한 축은 숫자의 크기(1, 2, 3, ...)를 따라가고, 다른 축들은 10진법의 주기성(1의 자리, 10의 자리 같은)을 표현하더라는 거죠. 그러니까 숫자를 단순히 '큰 것 → 작은 것' 일렬로 늘어놓는 게 아니라, 덧셈·뺄셈·자릿수 올림 같은 연산을 자연스럽게 할 수 있는 기하학적 구조를 스스로 찾아낸 거예요.

더 중요한 건, 이 구조가 모델 간에 거의 그대로 겹친다는 점입니다. 연구진은 서로 다른 모델의 숫자 표현 공간을 선형 변환만으로 맞춰봤더니 놀라울 만큼 잘 일치했다고 보고해요. 구조적인 '숫자의 진짜 모양'이 존재한다는 강한 증거인 셈이죠.

왜 이게 중요한가: 플라톤적 표현 가설

이 발견은 최근 활발히 논의되는 플라톤적 표현 가설(Platonic Representation Hypothesis)과 맞닿아 있어요. 이게 뭐냐면, 충분히 큰 신경망을 충분히 많은 데이터로 학습시키면, 그게 어떤 모델이든 결국 '세상의 진짜 구조'에 수렴한다는 주장이에요. MIT 쪽에서 먼저 제기됐고, 이미지 모델과 언어 모델의 내부 표현이 서로 비슷해진다는 실험들이 잇따라 나오고 있죠.

숫자는 이 가설을 검증하기에 딱 좋은 대상이에요. 왜냐하면 숫자에는 객관적이고 분명한 수학적 구조(순서, 자릿수, 덧셈 구조)가 있거든요. 모델들이 이 구조에 실제로 수렴한다면, 언어 같은 추상적인 영역에서도 비슷한 수렴이 일어나고 있다고 추정할 수 있는 거죠.

해석가능성 관점에서 본 의미

해석가능성 연구자들에게 이 결과는 정말 큰 힌트예요. 지금까지 LLM 내부를 분석할 때 가장 큰 고민이 "이 모델에서 찾은 패턴이 다른 모델에도 적용될까?"였거든요. 각 모델이 제각각이라면 하나씩 분석해야 하니 비용이 끔찍합니다. 그런데 숫자처럼 구조적인 개념에 대해서는 '보편 문법'이 존재할 가능성이 커진 거죠. 한 모델에서 찾은 회로(circuit)를 다른 모델에 이식하거나 비교하는 연구가 탄력을 받을 거예요.

실제로 Anthropic의 회로 분석, OpenAI의 scaling monosemanticity 연구, DeepMind의 gemma-scope 같은 프로젝트들이 모두 이런 방향을 가리키고 있어요.

한국 개발자에게 주는 시사점

실무에 바로 적용할 포인트가 몇 개 있습니다. 첫째, LLM을 수치 계산에 쓸 때 '숫자는 텍스트일 뿐'이라고 가볍게 보지 마세요. 모델은 숫자에 대해 꽤 정교한 내부 표현을 갖고 있고, 이걸 활용하면 재무·통계·양적 분석 같은 과제에서 더 좋은 프롬프트를 설계할 수 있어요. 숫자를 쪼개서 자릿수별로 나눠 주거나 단위를 명시하는 것만으로도 성능 차이가 크게 납니다.

둘째, 모델 평가나 파인튜닝을 할 때 '내부 표현의 유사성'을 지표로 삼는 게 점점 흔해질 겁니다. 임베딩 기반 평가, 프로빙(probing) 분석 같은 기법을 한 번쯤 실습해두면 좋아요.