Claude 에이전트 100개를 동시에 돌려서 테스트한다면? Imbue의 대규모 AI 에이전트 병렬 테스트 사례

AI 에이전트가 실무에 들어오면 테스트는 어떻게 해야 할까요?

AI 에이전트를 실제 업무에 투입하는 회사가 점점 늘고 있어요. 코드 리뷰, 버그 수정, PR 생성 같은 작업을 AI가 알아서 처리하게 만드는 거죠. 그런데 여기서 한 가지 큰 질문이 생겨요. "이 에이전트가 제대로 일하고 있는지 어떻게 확인하지?" 사람 한 명을 채용하면 업무 결과를 리뷰하면 되지만, AI 에이전트 100개가 동시에 돌아가면 이야기가 달라지거든요.

AI 연구 회사 Imbue가 이 문제에 대한 실전 경험을 공유했는데요, Claude 에이전트를 100개 이상 병렬로 실행하면서 자사 제품 Mngr의 테스트를 진행한 사례예요. Mngr은 소프트웨어 엔지니어링 작업을 자동화하는 AI 매니저 도구인데, 이 도구 자체를 검증하기 위해 대규모 에이전트 병렬 테스트를 설계한 거죠.

왜 병렬 테스트가 필요한 건가요?

AI 에이전트의 특성을 이해하면 병렬 테스트의 필요성이 자연스럽게 보여요. 전통적인 소프트웨어는 같은 입력에 항상 같은 출력을 주잖아요. 하지만 AI 에이전트는 비결정적(non-deterministic)이에요. 이게 뭐냐면, 같은 작업을 시켜도 매번 다른 방식으로 처리할 수 있다는 거예요. 마치 같은 업무 지시를 받은 10명의 개발자가 각각 다른 코드를 작성하는 것처럼요.

그래서 "이 에이전트가 이 작업을 잘 하는가?"를 판단하려면 한 번만 돌려보면 안 돼요. 여러 번, 그것도 다양한 조건에서 반복 실행해야 통계적으로 의미 있는 결과를 얻을 수 있어요. Imbue는 이걸 위해 100개 이상의 Claude 에이전트를 동시에 실행하는 인프라를 구축했어요.

어떤 구조로 돌렸을까요?

Imbue의 접근 방식에서 흥미로운 점이 몇 가지 있어요. 먼저, 각 에이전트에게 실제 GitHub 리포지토리의 이슈를 할당하고, 에이전트가 독립적으로 코드를 수정하고 PR을 만들도록 했어요. 테스트 환경이 아니라 실제에 가까운 조건에서 돌린 거죠.

테스트의 평가 기준도 재미있는데요, 단순히 "코드가 컴파일되는가"가 아니라 "사람이 리뷰했을 때 머지할 만한 품질인가"를 봤어요. 이건 자동화된 테스트만으로는 측정하기 어려운 부분이라, 사람의 평가가 일부 포함됐을 거예요.

대규모 병렬 실행에서 가장 까다로운 건 비용과 속도의 균형이에요. Claude API를 100개 이상 동시에 호출하면 당연히 비용이 올라가고, API 레이트 리밋에 걸릴 수도 있거든요. Imbue는 이런 운영적 도전들을 어떻게 관리했는지에 대한 실전 노하우를 공유하고 있어요.

기존 AI 평가 방식과 뭐가 다른가요?

보통 AI 모델을 평가할 때는 SWE-bench 같은 벤치마크를 많이 쓰는데요, 이건 정해진 문제 세트에 대해 정답이 있는 방식이에요. 반면 Imbue의 접근은 실제 업무 환경에서의 성능을 측정하는 데 초점을 맞추고 있어요.

이건 중요한 차이예요. 벤치마크에서 높은 점수를 받는 모델이 실제 업무에서 꼭 좋은 건 아니거든요. 실제 코드베이스는 벤치마크보다 훨씬 복잡하고, 컨텍스트도 방대하며, 요구사항도 모호한 경우가 많아요. Imbue는 이런 현실적인 조건에서 에이전트의 신뢰성을 측정하려 한 거예요.

Devin, Cursor, Codex 같은 다른 AI 코딩 도구들도 에이전트 방식을 채택하고 있는데요, 이런 도구들의 품질을 어떻게 체계적으로 검증할 것인가는 업계 전체의 과제이기도 해요. Imbue의 사례는 그 방향에 대한 하나의 레퍼런스가 될 수 있어요.

한국 개발자에게 주는 시사점

AI 에이전트를 팀에 도입하려는 곳이 늘고 있는데요, 단순히 "AI 도구를 쓴다"와 "AI 에이전트를 운영한다"는 완전히 다른 이야기예요. 에이전트를 운영한다는 건 결국 "검증 가능한 자동화 파이프라인"을 구축해야 한다는 뜻이거든요.

당장 Imbue 수준의 인프라를 구축하긴 어렵겠지만, 몇 가지 참고할 만한 원칙이 있어요. AI 에이전트의 출력은 반드시 자동화된 검증 단계를 거치도록 설계해야 하고요. 한 번이 아니라 반복 실행해서 일관성을 확인해야 해요. 그리고 벤치마크 성능과 실무 성능은 다를 수 있다는 걸 늘 염두에 두셔야 해요.

CI/CD 파이프라인에 AI 에이전트를 끼워 넣으려는 분들이라면, 이 사례에서 테스트 전략의 힌트를 얻을 수 있을 거예요.