트랜스포머는 왜 '짧게 압축해서' 표현을 잘할까 — 이론으로 파고든 연구

무슨 이야기냐면

요즘 ChatGPT나 Claude 같은 AI의 심장에는 트랜스포머(Transformer)라는 구조가 들어가 있어요. 2017년에 구글이 발표한 "Attention is All You Need" 논문에서 시작된 이 구조는, 이제 사실상 현대 AI의 표준이 됐거든요. 그런데 우리는 트랜스포머가 왜 이렇게 잘 동작하는지를 사실 정확히는 모릅니다. 그냥 '데이터 많이 넣고 크게 만들면 잘 되더라'는 경험칙에 가까웠죠.

이번에 소개할 연구 "Transformers are inherently succinct(트랜스포머는 본질적으로 간결하다)"는 바로 그 '왜'를 수학적으로 따져보자는 시도예요. 결론을 한 문장으로 말하면, "트랜스포머는 어떤 규칙이나 함수를 표현할 때, 다른 방식보다 훨씬 더 짧고 압축적으로 표현할 수 있다"는 거예요.

핵심 내용: '간결함'이 뭐길래

여기서 말하는 간결함(succinctness)이 뭐냐면, 같은 일을 하더라도 얼마나 적은 '부품'으로 표현할 수 있느냐를 말해요. 예를 들어 어떤 규칙을 표현하는 데 A 방식은 메모 100장이 필요한데, B 방식은 10장이면 된다고 해봐요. 그럼 B가 더 간결한 거죠.

연구진은 트랜스포머를 일종의 '계산 모델'로 보고, 형식 언어(formal language, 정해진 규칙으로 만들어지는 문자열의 집합)를 얼마나 컴팩트하게 표현할 수 있는지를 분석했어요. 그 결과, 트랜스포머는 같은 언어를 표현할 때 기존의 정통적인 표현 방식(예: 오토마타나 회로)보다 지수적으로(exponentially) 더 짧게 표현할 수 있는 경우가 있다는 걸 증명했어요. 지수적이라는 건, 입력이 조금만 커져도 차이가 폭발적으로 벌어진다는 뜻이라 굉장히 큰 의미예요.

반대로 중요한 건, '간결하게 표현할 수 있다'는 게 '쉽게 학습된다'와 같은 말은 아니라는 점이에요. 표현이 가능한 것과, 실제로 데이터로 그걸 찾아내는 것은 다른 문제거든요. 이 논문은 주로 '표현력의 상한선'을 다루는 이론 연구라고 보면 돼요.

업계 맥락에서 보면

사실 트랜스포머의 이론적 한계를 파고드는 연구는 최근 몇 년간 꾸준히 나오고 있어요. 대표적으로 트랜스포머가 어떤 복잡도 클래스(예: TC0)에 속하느냐를 따지는 연구들이 있었고, '트랜스포머는 사실 진짜 추론을 못 한다, 패턴 매칭일 뿐이다' 같은 비판적 연구도 있었거든요. 이번 연구는 그 흐름 속에서 긍정적인 쪽의 근거를 하나 더 보탠 셈이에요. "적어도 표현의 효율성 측면에서는 트랜스포머가 구조적으로 유리하다"는 거죠.

이게 RNN(순환 신경망)이나 상태공간 모델(Mamba 같은)과의 비교에서도 의미가 있어요. 요즘 'attention은 비효율적이니 대체하자'는 흐름이 있는데, 이 연구는 attention 구조가 단순히 비싸기만 한 게 아니라 표현 효율 면에서 얻는 게 분명히 있다는 점을 짚어주거든요.

한국 개발자에게 주는 시사점

당장 내일 코드에 적용할 만한 실무 팁은 아니에요. 솔직하게 말하면 이건 이론 논문이라, AI를 직접 만드는 연구자나 대학원생에게 더 직접적이에요. 하지만 LLM을 가져다 쓰는 입장에서도 알아두면 좋은 직관을 줘요.

예를 들어 "왜 작은 모델은 안 되던 게 큰 모델에서는 갑자기 되는가(창발, emergence)" 같은 현상을 이해하는 데 도움이 되거든요. 표현력의 차이가 지수적으로 벌어질 수 있다면, 모델 크기를 조금 키웠을 때 능력이 비선형적으로 점프하는 것도 어느 정도 설명이 되는 거죠. 또 '우리 태스크를 트랜스포머가 애초에 표현할 수 있는 종류의 문제인가'를 생각해보는 관점도 생겨요.