
AGI 벤치마크, 왜 필요할까
요즘 AI 모델들이 코딩도 하고, 논문도 요약하고, 심지어 변호사 시험도 통과하잖아요. 근데 이런 성과를 볼 때마다 드는 의문이 있어요. "진짜 이해하고 푸는 걸까, 아니면 학습 데이터에서 비슷한 패턴을 본 적 있어서 그런 걸까?" ARC Prize 재단에서 이 질문에 답하기 위해 만든 벤치마크의 세 번째 버전, ARC-AGI-3가 공개됐어요.
ARC-AGI가 뭐냐면
ARC는 Abstraction and Reasoning Corpus의 약자예요. 직역하면 "추상화와 추론 모음집"인데, 쉽게 말해 IQ 테스트의 AI 버전이라고 생각하면 돼요. 패턴 인식 문제처럼 생긴 격자(grid) 퍼즐이 주어지는데, 입력 격자를 보고 규칙을 파악해서 출력 격자를 맞추는 거예요.
예를 들어 "파란색 점이 있는 칸 주변을 노란색으로 채워라" 같은 규칙을 입출력 예시 몇 개만 보고 스스로 알아내야 해요. 사람한테는 꽤 직관적인 문제인데, AI에게는 엄청 어려워요. 왜냐하면 각 문제의 규칙이 매번 다르기 때문에 학습 데이터를 외워서 풀 수가 없거든요. 진짜로 "추상적 사고"를 해야만 풀 수 있는 구조예요.
François Chollet(케라스를 만든 분이죠)가 2019년에 처음 제안했는데, 그때부터 "현재 AI에 진짜 일반 지능이 있는지"를 테스트하는 가장 순수한 벤치마크로 주목받아왔어요.
ARC-AGI-3에서 뭐가 달라졌나
이전 버전인 ARC-AGI-2가 나왔을 때, 최신 AI 모델들이 생각보다 빠르게 점수를 올려서 벤치마크의 난이도를 높여야 한다는 논의가 있었어요. ARC-AGI-3는 그런 피드백을 반영해서 몇 가지 중요한 변화를 줬어요.
우선 문제의 복잡도가 높아졌어요. 하나의 문제를 풀기 위해 여러 단계의 추론을 거쳐야 하는 문제가 늘었고, 규칙 자체가 더 추상적이에요. 단순히 "색을 바꿔라" 수준이 아니라, "이 패턴이 의미하는 개념을 파악하고 그 개념을 다른 맥락에 적용해라" 같은 고차원적인 사고를 요구하는 문제들이 포함됐어요.
또한 평가 방식도 더 엄격해졌어요. 이전에는 몇 번의 시도 기회가 있었는데, ARC-AGI-3에서는 시도 횟수와 연산 비용에 대한 제약이 더 타이트해졌어요. 무한히 시도해서 맞추는 브루트포스 접근을 차단하려는 의도예요.
현재 AI 모델들의 성적은
솔직히 말해서, 최신 모델들도 사람에 비하면 아직 한참 부족해요. 평균적인 사람이 ARC 문제를 풀면 대략 85% 정도의 정답률을 보이는데, 최고 성능의 AI 시스템도 이 수준에 미치지 못해요. 특히 ARC-AGI-3의 새로운 어려운 문제들에서는 격차가 더 벌어질 거라고 예상되고요.
이게 의미하는 건, LLM이 아무리 크고 똑똑해져도 "새로운 규칙을 즉석에서 파악하는 능력"은 아직 사람을 못 따라온다는 거예요. 학습 데이터에 없는 완전히 새로운 패턴을 만났을 때 유연하게 대처하는 건 여전히 AI의 약점이에요.
업계에서 이 벤치마크가 중요한 이유
AI 벤치마크 시장 자체가 좀 문제가 있거든요. MMLU, HumanEval, GSM8K 같은 유명 벤치마크들이 있는데, 이것들은 시간이 지나면서 모델들이 "벤치마크 해킹"을 하게 되는 경향이 있어요. 테스트 데이터가 학습 데이터에 섞여 들어가거나, 벤치마크 점수를 올리는 데 특화된 훈련을 하는 식이죠. 시험 족보를 외워서 만점 받는 것과 비슷해요.
ARC-AGI는 그런 해킹이 구조적으로 어렵게 설계됐어요. 매번 새로운 규칙의 문제가 나오니까, 족보를 외울 수가 없거든요. 그래서 AI의 진짜 추론 능력을 측정하는 데 있어서 다른 벤치마크보다 신뢰도가 높다고 평가받아요.
ARC Prize 재단은 이 벤치마크에서 인간 수준의 성능을 달성하는 팀에게 상금도 걸어놓고 있어요. 이전 버전에서는 상금 규모가 꽤 컸는데, ARC-AGI-3에서도 도전할 수 있는 구조가 이어지고 있어요.
한국 개발자에게 어떤 의미가 있을까
AI 엔지니어링을 하고 있다면, 내가 만드는 시스템이 "진짜 똑똑한 건지" 아니면 "잘 외운 건지"를 구분하는 관점이 중요해요. 프로덕션에서 모델이 예상치 못한 입력을 만났을 때 우아하게 대처하는지, 아니면 완전히 무너지는지가 서비스 품질을 결정하거든요. ARC-AGI 스타일의 평가 관점을 자기 프로젝트에 적용해볼 수 있어요.
또한 ARC 문제 자체가 알고리즘 퍼즐로서도 재미있어요. 프로그래밍 대회를 즐기는 분이라면 한번 도전해봐도 좋을 것 같고요.
정리하자면
ARC-AGI-3는 AI가 정말로 추상적으로 사고할 수 있는지를 시험하는 벤치마크의 최신 버전이에요. LLM이 놀라운 성과를 내고 있지만, "진짜 이해"의 관점에서는 아직 갈 길이 멀다는 걸 보여주죠. 여러분은 현재 AI가 "이해"를 하고 있다고 생각하시나요, 아니면 정교한 패턴 매칭을 하는 걸까요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공