AI는 정말 추론할 수 있을까? 람다 계산법으로 묻는 람벤치(Lambench)

새로운 AI 벤치마크가 등장했다

Victor Taelin이라는 개발자가 Lambench라는 새로운 AI 벤치마크를 공개했어요. 이름에서 짐작하셨겠지만 람다 계산법(lambda calculus)을 기반으로 AI 모델의 추론 능력을 측정하는 벤치마크예요. 코딩 문제나 수학 시험을 푸는 기존 벤치마크와는 결이 다른 접근이라 흥미로워요.

람다 계산법이 뭐냐면, 1930년대에 알론조 처치(Alonzo Church)가 만든 아주 단순한 계산 모델이에요. 함수와 변수, 그리고 함수 적용. 딱 이 세 가지만으로 모든 계산을 표현할 수 있다는 게 핵심이에요. Haskell, Lisp, 그리고 사실상 모든 함수형 프로그래밍 언어의 뿌리가 여기에 있어요. JavaScript의 화살표 함수도 람다의 후손이고요. 단순해 보이지만, 이걸로 튜링 머신과 같은 표현력을 가진다는 게 증명되어 있어요.

왜 람다 계산법으로 AI를 시험하나

기존 AI 벤치마크들, 예를 들면 HumanEval이나 MMLU, GSM8K 같은 건 모두 자연어와 결합된 문제예요. 영어로 된 문제 설명, 영어로 된 선택지, 영어로 된 코드 주석까지. 그런데 이런 환경에서는 모델이 진짜 추론을 하는 건지, 아니면 학습 데이터에 있던 비슷한 패턴을 그냥 외워서 맞추는 건지 구분이 어려워요. 이걸 데이터 오염(data contamination) 문제라고 해요.

Lambench는 이 문제를 정면 돌파해요. 람다 식을 주고 베타 환원(beta reduction), 그러니까 함수에 인자를 대입해서 식을 단순화하는 작업을 시켜요. 이건 본질적으로 기호 조작(symbolic manipulation) 작업이에요. 외워서 풀 수 없고, 한 단계씩 규칙을 따라가야만 답이 나와요. 마치 종이와 연필로 수학 식을 풀듯이요.

예를 들어 (λx. λy. x y) (λz. z) a 같은 식이 있다면, 모델은 알파 변환(변수 이름이 충돌하지 않도록 바꾸는 것)과 베타 환원(함수에 인자 대입)을 거쳐 최종적으로 a라는 결과를 도출해야 해요. 한 단계라도 틀리면 답이 완전히 어긋나죠. 그래서 이 벤치마크는 AI의 단계별 일관성과 기호 조작 정확도를 정밀하게 측정해요.

결과에서 보이는 것들

공개된 결과를 보면 흥미로워요. 자연어 추론에서 강력한 모델들도 식의 길이가 길어지면 정확도가 급격히 떨어지는 경향이 있어요. 짧은 식은 잘 풀지만, 환원 단계가 10단계, 20단계로 늘어나면 한 군데서 실수하고 그 실수가 누적되는 거죠. 이건 인간도 마찬가지지만, AI의 경우 그 실수의 양상이 학습 데이터의 분포에 크게 영향을 받는다는 게 문제예요.

또 한 가지, 체인 오브 쏘트(chain-of-thought) 프롬프팅이 람다 계산에서는 정말 큰 차이를 만든다는 게 확인돼요. 그냥 답만 내라고 하면 헤매다가, 한 단계씩 환원 과정을 적으라고 하면 훨씬 정확해져요. 이게 시사하는 바는, 모델이 머릿속(가중치)에서만 추론하는 것보다 외부 작업 공간에 중간 결과를 쌓아가며 추론하는 게 본질적으로 더 강력하다는 거예요.

다른 추론 벤치마크와의 비교

ARC(Abstraction and Reasoning Corpus)는 이미지 패턴을 보고 규칙을 추론하는 벤치마크고, BIG-bench Hard는 다양한 어려운 자연어 과제 모음이에요. Lambench는 이들과 달리 순수 형식 시스템(pure formal system) 안에서 작업한다는 차별점이 있어요. 자연어의 모호성이 끼어들 여지가 없으니 채점이 객관적이고, 데이터 오염도 거의 불가능해요. 새로운 식을 무한히 자동 생성할 수 있거든요.

Victor Taelin은 HVM과 Bend 같은 함수형 런타임/언어를 만든 사람이에요. 람다 계산을 병렬로 효율적으로 환원하는 방법을 오랫동안 연구해왔죠. 그래서 이 벤치마크가 단순한 호기심이 아니라, AI가 함수형 코드를 정말로 다룰 수 있는지 묻는 진지한 질문에서 출발했다는 점을 이해할 필요가 있어요.

한국 개발자에게 주는 시사점

AI 코딩 도구를 쓰는 분이라면, 함수형 코드를 다룰 때 모델의 약점을 인지하는 게 중요해요. 깊은 중첩 함수, 고차 함수의 연쇄, 모나드 변환 같은 코드에서 AI가 미묘하게 틀리는 경우가 많거든요. Lambench가 보여주는 한계와 정확히 같은 종류의 실수예요.

ML 엔지니어라면 추론 능력 평가에 람다 식 같은 합성 가능하고 검증 가능한 과제를 쓰는 패턴을 자기 도메인에 적용해볼 수 있어요. 자연어 평가만으로는 모델의 진짜 능력을 알기 어려우니까요.