다음 토큰 예측, 정말 지능의 끝까지 갈 수 있을까: LLM의 본질을 다시 묻는 글

"그냥 다음 단어 맞히는 거잖아"라는 말, 정말 맞을까

ChatGPT가 나온 뒤로 가장 많이 들은 표현 중 하나가 "LLM은 결국 다음 토큰을 예측하는 모델이다"라는 말이에요. 토큰(token)이란 게 뭐냐면, 모델이 글자를 처리하는 최소 단위인데요. 한국어로 치면 "안녕하세요"가 "안녕", "하세", "요" 같은 조각들로 잘려서 모델에 들어간다고 생각하시면 돼요. 모델은 앞에 나온 토큰들을 보고 "다음에 올 가장 그럴듯한 토큰"을 확률로 계산해서 뱉어내는 거예요. 이게 LLM의 전부라고 하면, "그럼 이건 그냥 엄청 똑똑한 자동완성 아닌가?" 하는 의심이 따라붙죠. pop.rdi.sh의 이 글은 바로 그 질문을 정면으로 다룹니다. "다음 토큰 예측은 우리를 어디까지 데려갈 수 있을까?"

다음 토큰 예측이 의외로 강력한 이유

먼저 "왜 이게 이렇게 잘 되는지"부터 풀어볼게요. 사실 "다음 단어 맞히기"라는 과제는 표면적으로는 단순해 보이지만, 잘하려면 엄청나게 많은 걸 이해해야 해요. 예를 들어 "한국의 수도는 ___"라는 문장의 다음 토큰을 맞히려면 지리 지식이 있어야 하고, "def fibonacci(n): if n <= 1: return ___"의 다음 토큰을 맞히려면 알고리즘과 파이썬 문법을 둘 다 알아야 해요. "환자가 가슴 통증을 호소하고 있고 심전도에서 ___"의 다음 토큰을 맞히려면 의학 지식이 필요하고요. 즉 "다음 토큰을 가장 정확하게 맞히는 모델"이 되려면 결과적으로 세상의 거의 모든 도메인 지식을 어느 정도 흡수할 수밖에 없다는 거예요.

이게 OpenAI의 일리야 수츠케버(Ilya Sutskever)가 자주 했던 말이기도 해요. "충분히 잘하는 다음 토큰 예측은 본질적으로 세상의 압축(compression)"이라는 표현인데, 데이터를 잘 압축하려면 그 데이터를 만들어내는 규칙을 이해해야 하니까, 결국 "이해"라는 게 자연스럽게 모델 안에 생긴다는 주장입니다.

그런데 "한계가 있다"는 반론도 만만치 않아요

글에서 흥미로운 부분은 이 주장에 대한 반론을 차분히 정리한 부분이에요. 핵심은 "인간의 사고는 다음 토큰 예측과 본질적으로 다르다"는 거예요. 우리가 문제를 풀 때를 생각해 보세요. 수학 문제를 풀 때 우리는 "다음에 어떤 숫자를 쓸까"를 확률로 고민하지 않잖아요. 머릿속에 시각적인 도형을 떠올리거나, 여러 가능한 풀이 경로를 동시에 비교하거나, "잠깐 이건 틀린 방향이네" 하고 뒤로 돌아가서 다시 시작해요. 이건 단순한 "한 방향 예측"이 아니라 백트래킹(backtracking)과 계획(planning)이 들어간 사고예요.

LLM은 기본적으로 한 번 토큰을 뱉으면 그걸 "확정"하고 다음으로 넘어가요. 그래서 추론 중간에 잘못된 방향으로 빠지면 그 위에 또 잘못된 토큰들을 쌓아 올리게 되죠. 우리가 가끔 ChatGPT가 자신감 있게 헛소리하는 걸 보는 이유가 이거예요. 이걸 어느 정도 보완한 게 OpenAI o1, DeepSeek R1, Claude의 thinking 모드 같은 "추론 모델(reasoning model)"들이에요. 모델이 답을 내놓기 전에 "생각하는 토큰"을 길게 뱉으면서 스스로 검토하고 수정할 기회를 갖게 하는 거죠. 그런데 이것도 결국 "더 긴 다음 토큰 예측"이라는 점에서, 본질적으로 새로운 패러다임인지 아니면 같은 패러다임을 더 효율적으로 쓰는 건지는 논쟁 중이에요.

다음 패러다임으로 거론되는 것들

글에서 다루는 또 하나의 흥미로운 주제는 "그럼 다음은 뭐냐"입니다. 몇 가지 후보가 있어요. 첫째, 세계 모델(world model). 얀 르쿤(Yann LeCun)이 자주 주장하는 방향인데, 모델이 텍스트만 보는 게 아니라 영상, 물리 시뮬레이션 같은 걸 통해 "세상이 어떻게 작동하는지"를 직접 학습해야 한다는 거예요. 둘째, 행동을 통한 학습(embodied learning). 로봇이나 에이전트가 실제로 환경과 상호작용하면서 배우는 방식이에요. 셋째, 명시적 추론과 계획. 모델 안에 별도의 "플래너" 모듈을 두고, 토큰 예측과 분리된 형태로 문제를 분해하게 하는 접근이고요. 넷째, 메모리와 학습의 결합. 지금의 LLM은 학습 끝나면 새로운 걸 못 배우는데, 사용하면서 계속 학습하는 구조를 만들자는 방향이에요.

이 후보들이 다 일리는 있지만, 흥미로운 건 "다음 토큰 예측"이 여전히 너무 강력해서, 새로운 접근들도 결국 그 위에 무언가를 얹는 형태로 발전하고 있다는 거예요. o1 시리즈가 그 좋은 예고, 최근 나오는 멀티모달 모델들도 결국 이미지/오디오를 토큰화해서 같은 "다음 토큰" 프레임으로 처리하거든요.

한국 개발자에게 주는 함의

LLM을 활용해서 프로덕트를 만드는 분들에게 이 논의가 왜 중요하냐면, 모델의 본질적 한계를 알아야 어디까지 맡길지 결정할 수 있기 때문이에요. 다음 토큰 예측은 "패턴이 강하게 존재하는 영역"에서 무섭게 잘 작동해요. 코드 자동완성, 문서 요약, 일반적인 Q&A 같은 거요. 반면 "창의적인 다단계 추론이 필요한 일", "새로운 도메인의 첫 시도", "엄격한 정확성이 요구되는 계산" 같은 영역에서는 여전히 헛소리할 가능성이 높아요. 그래서 실무에서는 LLM의 출력을 무조건 믿지 말고, 검증 가능한 출력 형식(JSON 스키마, 함수 호출), 외부 검증기(코드 실행, 수식 계산기), RAG 같은 사실 근거 보강 같은 장치를 함께 두는 게 필수예요.

또 한 가지, 새로운 패러다임이 등장한다고 해서 다음 토큰 예측이 사라질 가능성은 거의 없어 보여요. 오히려 "다음 토큰 예측 + α"의 형태로 진화할 가능성이 크니까, 기본기로 트랜스포머와 토큰화, 어텐션 메커니즘 같은 걸 잘 이해해두는 건 앞으로도 계속 유효한 투자예요.

마무리

"LLM은 그냥 자동완성"이라는 말은 절반은 맞고 절반은 틀려요. 맞는 건 메커니즘이 정말로 다음 토큰을 예측하는 것이라는 점, 틀린 건 그 단순한 과제를 극단까지 밀어붙이면 우리가 "지능"이라고 부르던 많은 것들이 자연스럽게 등장한다는 점이에요. 여러분은 어떻게 보세요? 다음 토큰 예측만으로 "진짜 추론"까지 갈 수 있다고 생각하시나요, 아니면 본질적으로 다른 메커니즘이 추가되어야 한다고 보시나요?

🔗 출처: Hacker News

이 글도 읽어보세요