1976년산 미니컴퓨터에서 트랜스포머를 학습시킨 사람이 있다

종이 테이프만 있으면 됩니다(?)

"Attention Is All You Need"라는 2017년 논문이 현대 AI의 판도를 바꿨다는 건 다들 아실 거예요. 트랜스포머 아키텍처를 소개한 그 유명한 논문이죠. 그런데 누군가가 이걸 극한까지 밀어붙여서, 1976년에 만들어진 PDP-11 미니컴퓨터 위에서 트랜스포머 모델을 학습시키는 프로젝트를 만들었어요. 프로젝트 이름은 ATTN-11. "Paper Tape Is All You Need"라는 부제가 붙어 있는데, 종이 테이프(paper tape)는 1970년대 컴퓨터에서 프로그램을 입력하던 실제 매체예요.

PDP-11이 뭔가요?

PDP-11은 DEC(Digital Equipment Corporation)이 만든 16비트 미니컴퓨터예요. 지금의 노트북 한 대보다 성능이 한참 떨어지는 기계인데, 당시에는 대학교 연구실이나 기업에서 쓰이던 꽤 고급 장비였어요. 메모리가 킬로바이트 단위이고, 부동소수점 연산 유닛 같은 건 기본 사양이 아니었거든요. 오늘날 우리가 GPU 수천 개를 클러스터로 묶어서 LLM을 학습시키는 것과는 차원이 다른 세계예요.

이 프로젝트의 개발자는 PDP-11의 극도로 제한된 환경 — 16비트 정수 연산, 제한된 메모리, 느린 클럭 스피드 — 안에서 트랜스포머의 핵심 메커니즘인 셀프 어텐션(self-attention)을 구현했어요. 셀프 어텐션이 뭐냐면, 입력 시퀀스의 각 요소가 다른 모든 요소와의 관계를 계산하는 과정인데요, 이걸 16비트 정수로만 처리한다는 게 보통 일이 아니에요.

기술적으로 어떻게 가능한 건가요?

현대 딥러닝 프레임워크들은 32비트 또는 16비트 부동소수점(floating point) 연산을 기본으로 사용해요. 부동소수점은 소수점을 자유롭게 옮길 수 있어서 아주 크거나 아주 작은 수를 다루기 좋은 숫자 표현 방식이에요. 그런데 PDP-11에는 부동소수점 유닛이 없을 수 있기 때문에, 이 프로젝트는 고정소수점(fixed-point) 정수 연산만으로 모든 계산을 수행해요.

이게 어려운 이유가 있는데, 트랜스포머 학습 과정에서 그래디언트(기울기) 값이 아주 작아지는 경우가 많거든요. 고정소수점에서는 표현할 수 있는 정밀도에 한계가 있기 때문에, 작은 그래디언트가 그냥 0으로 잘려나가 버릴 수 있어요. 이걸 해결하려면 스케일링을 아주 정교하게 해야 하는데, ATTN-11 프로젝트는 이런 수치적 문제들을 16비트 환경에서 어떻게 우회했는지를 코드로 보여주고 있어요.

물론 학습시키는 모델의 규모가 GPT-4 같은 대형 모델과는 비교할 수 없이 작아요. 토이 스케일의 모델이지만, 트랜스포머의 핵심 구조 — 쿼리-키-밸류 어텐션, 포지셔널 인코딩, 역전파 — 를 충실하게 구현했다는 점에서 교육적 가치가 있어요.

이런 프로젝트가 왜 의미 있을까요?

"그래서 뭐 어쩌라고?"라고 할 수도 있는데, 이런 극한 환경 프로젝트가 주는 인사이트가 있어요. 첫째, 트랜스포머 아키텍처의 본질을 이해하는 데 도움이 돼요. PyTorch나 TensorFlow 위에서 model.fit() 한 줄로 학습을 돌리면 내부에서 무슨 일이 일어나는지 감이 안 오잖아요. 모든 걸 밑바닥부터 정수 연산으로 구현하면 어텐션 메커니즘이 실제로 어떤 수학적 연산인지 뼈로 느낄 수 있거든요.

둘째, 양자화(quantization) 연구와도 맥이 닿아 있어요. 요즘 엣지 디바이스에서 AI 모델을 돌리기 위해 가중치를 4비트, 8비트로 줄이는 양자화 기법이 핫한 주제인데, 16비트 정수로만 트랜스포머를 돌리는 이 프로젝트는 극단적인 양자화의 실험장이라고 볼 수 있어요.

셋째, 그냥 순수하게 재미있어요. 거의 50년 된 컴퓨터에서 2017년에 나온 아키텍처를 구현한다는 발상 자체가 해커 정신의 정수거든요.

한국 개발자에게 주는 시사점

이 프로젝트를 직접 실무에 쓸 일은 없겠지만, 저수준 구현을 통해 AI 기초를 배우고 싶은 분들에게는 훌륭한 교육 자료가 될 수 있어요. 추상화 레이어를 다 걷어내고 어텐션이 어떻게 계산되는지 들여다보는 경험은, 나중에 모델 최적화나 커스텀 연산자를 만들 때 분명히 도움이 되거든요.

또한 임베디드 AI나 엣지 컴퓨팅에 관심 있는 분이라면, 극도로 제한된 자원에서 신경망을 돌리는 테크닉이 어떤 식인지 감을 잡는 데 좋은 출발점이 될 거예요.