AI 에이전트 시대에도 캡차가 살아남는 이유: 글자가 아니라 '행동'을 본다

AI가 글자는 잘 읽는데, 캡차는 왜 자꾸 막힐까

요즘 'AI 에이전트(agent)'라는 말 많이 들어보셨을 거예요. 사람이 일일이 마우스로 클릭하지 않아도, AI가 알아서 웹 브라우저를 띄우고 로그인하고 버튼을 누르고 정보를 긁어오는 자동화 비서 같은 거거든요. 그런데 이 똑똑한 에이전트들이 의외로 자주 발목을 잡히는 곳이 하나 있어요. 바로 '캡차(CAPTCHA)'예요. '다음 중 신호등이 들어간 사진을 모두 고르세요' 같은 그거요. 재미있는 건, 사진 속 신호등을 알아보는 능력만 따지면 요즘 AI가 사람보다 더 정확하다는 거예요. 그런데도 캡차는 여전히 AI 에이전트를 꽤 잘 걸러냅니다. 왜 그럴까요?

캡차는 더 이상 '문제를 푸는 시험'이 아니에요

핵심은 캡차가 검사하는 대상이 바뀌었다는 데 있어요. 캡차는 원래 'Completely Automated Public Turing test to tell Computers and Humans Apart', 즉 컴퓨터와 사람을 구분하는 자동 테스트라는 뜻이에요. 초창기엔 일그러진 글자를 읽게 하거나 사진을 고르게 했죠. 사람은 쉽게 풀고 기계는 못 푸니까요. 그런데 컴퓨터 비전(이미지를 인식하는 AI 기술)이 발전하면서 이런 '문제 풀이형' 캡차는 사실상 다 뚫렸어요.

그래서 요즘 캡차는 전략을 바꿨어요. 문제를 맞히는지가 아니라, 문제를 푸는 '과정'을 봐요. 이걸 행동 기반(behavioral) 탐지라고 해요. 마우스가 어떤 궤적으로 움직였는지, 클릭하기 전에 얼마나 머뭇거렸는지, 페이지를 어떻게 스크롤했는지, 키보드를 누르는 리듬은 어떤지를 본다는 거죠.

이게 왜 효과적이냐면요, 사람의 마우스 움직임은 생각보다 엄청 지저분하거든요. 목표 지점까지 완벽한 직선으로 가지 않고 살짝 곡선을 그리고, 도착하기 직전에 속도를 줄이고, 미세하게 떨리고, 가끔 엉뚱한 곳으로 갔다가 돌아오기도 해요. 반대로 자동화된 봇은 좌표 A에서 좌표 B로 칼같이 직선으로, 일정한 속도로 이동하는 경우가 많아요. 너무 깔끔해서 오히려 들키는 거예요. AI 에이전트가 만들어내는 클릭 타이밍도 사람처럼 들쭉날쭉하지 않고 기계적으로 규칙적인 경향이 있고요.

환경 자체도 단서가 돼요

행동만 보는 게 아니에요. 에이전트가 돌아가는 환경도 신호를 흘려요. 예를 들어 자동화에 많이 쓰는 '헤드리스 브라우저(headless browser, 화면 없이 백그라운드로 도는 브라우저)'는 실제 사람이 쓰는 브라우저와 미묘하게 다른 흔적을 남겨요. 설치된 폰트, 화면 해상도, 그래픽 처리 방식, 자바스크립트 실행 특성 같은 걸 조합하면 '브라우저 지문(fingerprint)'이 만들어지는데, 자동화 도구는 이 지문이 부자연스럽게 깔끔하거나 전형적인 패턴을 보이는 경우가 많아요. 구글의 reCAPTCHA v3 같은 건 아예 사용자에게 풀 문제를 안 보여주고, 백그라운드에서 이런 신호들을 모아 '사람일 확률 점수'를 매기기도 해요.

끝나지 않는 창과 방패의 싸움

물론 이게 영원한 해법은 아니에요. AI 에이전트 쪽도 사람의 마우스 궤적을 흉내 내고, 자연스러운 지연을 넣고, 헤드리스 티를 지우는 기술을 계속 발전시키고 있거든요. 예전부터 캡차 우회 시장에선 실제 사람을 저임금으로 동원해 대신 풀게 하는 서비스도 있었고요. 결국 이건 '뚫으려는 쪽'과 '막으려는 쪽'의 끝없는 군비 경쟁이에요. 이번 연구가 주는 메시지는, 적어도 지금 시점에선 '행동과 환경'을 종합적으로 보는 캡차가 AI 에이전트 앞에서 생각보다 잘 버티고 있다는 거예요.

한국 개발자에게는 어떤 의미일까

두 부류 모두에게 와닿는 이야기예요. 먼저 봇을 막아야 하는 쪽이라면, 단순히 '신호등 사진 고르기' 같은 문제 난이도를 올리는 게 답이 아니라는 걸 알 수 있어요. 사용자의 행동 신호를 부드럽게 수집해서 점수화하는 방식이 훨씬 효과적이거든요. 반대로 업무 자동화나 데이터 수집을 위해 AI 에이전트를 붙이는 분이라면, 왜 우리 에이전트가 자꾸 막히는지에 대한 현실적인 벽을 미리 이해하고 설계에 반영해야 해요. 정식 API가 있는 곳은 API를 쓰고, 자동화가 막히는 구간은 사람이 개입하는 하이브리드 구조를 고려하는 식으로요.

마무리

한 줄로 정리하면, 캡차는 이제 '무엇을 푸느냐'가 아니라 '어떻게 행동하느냐'로 사람과 AI를 가른다는 거예요. 똑똑함보다 자연스러움이 더 어려운 시대인 셈이죠. 여러분이라면 AI 에이전트가 사람의 행동을 완벽히 흉내 내는 날, 캡차는 무엇으로 사람을 구분하게 될까요? 애초에 '사람임'을 증명하는 더 나은 방법이 있을까요?

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 부동소수점의 함정: floor와 ceil이 denormal 숫자에서 CPU와 GPU 다르게 동작하는 이유