AI 에이전트, 직접 만들어보면 '긴 작업'에서 무너지는 이유가 보여요

에이전트, 프레임워크 없이 바닥부터 만들어보면 보이는 것들

요즘 어딜 가나 AI 에이전트 얘기뿐이죠. LangChain이나 LangGraph 같은 프레임워크를 쓰면 몇 줄 만에 그럴듯한 에이전트가 돌아가긴 해요. 그런데 막상 '오래 걸리는 복잡한 작업'을 시켜보면 중간에 길을 잃고 엉뚱한 짓을 하는 경우가 정말 많거든요. 이번에 소개할 글은 바로 이 지점, 그러니까 에이전트가 긴 작업(long task)을 어떻게 계획하고 끝까지 완수하게 만들 것인가를 프레임워크 없이 바닥부터 구현하면서 설명하는 튜토리얼이에요.

에이전트가 뭐냐면, 사실 거대한 while 루프거든요

용어가 거창해서 그렇지, AI 에이전트의 뼈대는 의외로 단순해요. LLM(대규모 언어 모델)에게 '너는 이런 도구들을 쓸 수 있어'라고 알려주고, 모델이 '이 도구를 이렇게 실행해줘'라고 답하면 실제로 실행한 뒤 그 결과를 다시 모델에게 돌려주는 거예요. 이 과정을 모델이 '다 끝났어'라고 할 때까지 반복하는 while 루프, 이게 에이전트의 전부거든요. 검색하고, 파일 읽고, 코드 실행하고, 결과 보고 다음 행동을 정하고. 사람으로 치면 '생각하고, 행동하고, 결과 보고, 다시 생각하는' 과정을 기계적으로 돌리는 셈이에요.

문제는 이 단순한 루프가 짧은 작업에서는 잘 굴러가는데, 작업이 길어지면 와르르 무너진다는 거예요. 이유는 크게 세 가지인데요. 첫째, 컨텍스트 윈도우(모델이 한 번에 기억할 수 있는 대화 분량)에 한계가 있어요. 루프를 돌 때마다 도구 실행 결과가 쌓이니까, 수십 번만 돌아도 초반에 받은 지시사항이 밀려나거나 흐려지거든요. 둘째, 목표 이탈(drift)이에요. 중간에 사소한 에러를 만나면 그걸 고치는 데 빠져서 원래 목표를 잊어버리는 거죠. 셋째, 오류 누적이에요. 한 단계의 작은 실수가 다음 단계의 전제가 되면서 점점 산으로 가는 거예요.

해법은 '계획을 모델 머릿속이 아니라 바깥에' 두는 것

이 글이 제시하는 핵심 아이디어는 계획(plan)을 모델의 대화 기록에만 맡기지 말고, 명시적인 데이터 구조로 바깥에 꺼내두라는 거예요. 구체적으로는 이런 식이에요. 작업을 받으면 모델에게 실행이 아니라 '계획 수립'부터 시키는 거죠. 큰 작업을 작은 단계들로 쪼개서(작업 분해, task decomposition) 할 일 목록을 만들게 하고, 이 목록을 JSON 같은 형태로 프로그램이 직접 들고 있는 거예요.

그다음 루프에서는 매번 전체 대화를 다 보여주는 게 아니라, 현재 단계에 필요한 정보와 할 일 목록의 상태만 컨텍스트에 넣어줘요. 한 단계가 끝나면 목록에서 체크하고, 다음 단계로 넘어가고요. 이렇게 하면 모델이 100번째 턴에서도 '지금 내가 뭘 하고 있었지'를 잃어버리지 않거든요. 여기에 재계획(re-planning) 단계를 끼워 넣는 것도 중요해요. 몇 단계마다 한 번씩 '지금까지 결과를 보니 계획을 수정해야 할까?'를 모델에게 물어서, 상황이 바뀌면 남은 계획을 갱신하는 거예요.

사실 잘나가는 에이전트 제품들이 다 이렇게 해요

재미있는 건, 이 패턴이 학술적인 얘기가 아니라 실제 제품들이 쓰는 방식이라는 거예요. 코딩 에이전트들이 작업 시작 전에 할 일 목록을 만들어 하나씩 지워나가는 것, Deep Research류 서비스들이 먼저 조사 계획을 세우고 단계별로 검색하는 것 모두 같은 원리거든요. 2023년 AutoGPT가 화려하게 등장했다가 '루프만 돌고 일은 못 끝낸다'는 평가를 받았던 게 바로 이 계획 관리가 없었기 때문이고요. LangGraph가 상태 머신(state machine) 형태로 에이전트를 짜도록 유도하는 것도 같은 교훈에서 나온 설계예요.

한국 개발자에게: 프레임워크 쓰기 전에 한 번은 직접

실무에서 에이전트 도입을 검토하고 있다면, 프레임워크부터 잡기 전에 이런 글을 따라 한 번쯤 바닥부터 만들어보는 걸 추천해요. 몇백 줄이면 충분하거든요. 직접 만들어보면 프레임워크가 추상화해놓은 게 뭔지, 우리 서비스에서 에이전트가 멈추거나 헤맬 때 어디를 봐야 하는지가 보여요. 특히 '컨텍스트에 뭘 넣고 뭘 뺄 것인가'를 설계하는 감각은 어떤 프레임워크를 쓰든 그대로 가져갈 수 있는 자산이고요.

정리하면, 에이전트의 성패는 모델의 똑똑함보다 '계획을 어떻게 외부 상태로 관리하느냐'에 달려 있다는 얘기예요. 여러분은 에이전트한테 긴 작업을 시켜본 적 있나요? 어디서 무너지던가요? 경험담 공유해주시면 재미있을 것 같아요.

🔗 출처: Hacker News

이 글도 읽어보세요