테스트를 사람처럼 직접 클릭해주는 AI 에이전트, TesterArmy를 뜯어봤어요

"또 테스트 깨졌네"의 무한 반복

개발하다 보면 제일 미루고 싶은 작업이 테스트 작성이거든요. 기능 하나 만들면 그게 잘 돌아가는지 확인하는 코드를 또 따로 짜야 하고, 어렵게 만들어둔 테스트가 버튼 위치 하나 바뀌었다고 와르르 깨지는 경험, 다들 한 번쯤 해보셨을 거예요. TesterArmy는 바로 이 지점을 파고든 서비스인데요. 사람이 일일이 테스트 시나리오를 코드로 짜는 대신, AI 에이전트가 사람처럼 앱을 직접 눌러보고 입력하면서 테스트를 돌려준다는 게 핵심이에요.

여기서 '에이전트'라는 말이 자주 나오는데, 이게 뭐냐면요. 그냥 한 번 질문하면 한 번 답하는 챗봇이 아니라, 목표를 던져주면 스스로 여러 단계를 계획하고 실행하는 AI를 말해요. 예를 들어 "회원가입이 잘 되는지 확인해"라고 시키면, 에이전트가 알아서 가입 페이지를 찾고, 이메일을 입력하고, 비밀번호를 넣고, 인증 메일까지 확인하는 식으로 사람이 하던 일을 흉내 내는 거죠.

기존 테스트 자동화와 뭐가 다를까

원래 웹·모바일 테스트 자동화에는 Selenium이나 Playwright, Cypress 같은 도구를 많이 써왔어요. 이 도구들은 강력하긴 한데, 한 가지 고질병이 있거든요. 바로 선택자(selector)에 의존한다는 점이에요. 선택자가 뭐냐면, '로그인 버튼'을 코드가 찾아갈 수 있도록 알려주는 주소 같은 거예요. #login-btn 이런 식으로요. 그런데 디자이너가 화면을 조금만 손봐서 이 주소가 바뀌면, 테스트는 버튼을 못 찾고 그냥 실패해버려요. 기능은 멀쩡한데 테스트만 깨지는 거죠. 이걸 'flaky test(불안정한 테스트)'라고 부르는데, QA 엔지니어들의 영원한 골칫거리예요.

TesterArmy 같은 AI 에이전트 방식은 이 문제를 다르게 접근해요. 정해진 선택자를 따라가는 게 아니라, 화면을 사람처럼 '보고' 이게 로그인 버튼이구나를 판단하거든요. 그래서 버튼 색이나 위치, 내부 코드 이름이 바뀌어도 "로그인하는 버튼"이라는 의도만 같으면 알아서 찾아서 누를 수 있어요. 결과적으로 화면이 자주 바뀌는 초기 스타트업 제품일수록 유지보수 부담이 확 줄어드는 셈이죠. 게다가 자연어로 "장바구니에 상품 담고 결제까지 해봐"라고만 적어두면 테스트 시나리오가 되니까, 코드를 잘 모르는 기획자나 PM도 테스트를 만들 수 있다는 점이 매력적이에요.

비슷한 도전자들과의 비교

사실 'AI로 테스트하자'는 흐름은 TesterArmy만의 것은 아니에요. Mabl, Reflect, QA Wolf 같은 서비스들이 이미 비슷한 방향을 걷고 있고, 최근에는 컴퓨터 화면 자체를 이해하는 대형 멀티모달 모델이 나오면서 이 경쟁이 더 뜨거워졌어요. 큰 흐름으로 보면, 예전엔 'AI가 선택자 깨진 걸 자동으로 고쳐주는' 보조 수준이었다면, 지금은 아예 '에이전트가 처음부터 끝까지 탐색하며 테스트하는' 단계로 넘어가는 과도기라고 볼 수 있어요. TesterArmy가 웹뿐 아니라 모바일 앱까지 함께 다룬다는 점은 차별화 포인트인데요. 모바일은 기기 종류도 많고 화면 제어가 까다로워서 자동화가 훨씬 어려운 영역이라, 여기서 안정적으로 동작한다면 분명한 강점이 될 거예요.

한국 개발자에게는 어떤 의미일까

우리나라는 특히 QA 인력을 따로 두기 어려운 작은 팀이 많잖아요. 개발자가 기능도 만들고 테스트도 직접 챙겨야 하는 상황이 흔하죠. 이런 환경에서 AI 테스트 에이전트는 'QA 한 명을 빌려 쓰는' 느낌으로 활용할 수 있어요. 다만 맹신은 금물이에요. AI가 화면을 잘못 해석해서 통과시키면 안 되는 걸 통과시키거나, 반대로 멀쩡한 걸 실패로 잡는 경우도 생기거든요. 그래서 당장은 핵심 결제·로그인 같은 중요 플로우는 사람이 짠 안정적인 테스트로 지키고, 반복적이고 변화가 잦은 화면 테스트를 AI에게 맡기는 식의 분업이 현실적이에요. 영어 기반 서비스라 한글 UI나 본인인증, 간편결제 같은 한국 특유의 화면을 얼마나 잘 이해하는지도 꼭 직접 테스트해보고 도입하시길 권해요.

마무리

핵심을 한 줄로 정리하면, 테스트가 '코드를 짜는 일'에서 '의도를 말하면 AI가 실행하는 일'로 옮겨가고 있다는 거예요. 여러분은 깨지기 쉬운 선택자와 씨름하던 테스트 코드를, AI 에이전트에게 얼마나 믿고 맡길 수 있을 것 같으세요? 어떤 테스트는 절대 AI에게 못 맡기겠다 싶은 영역이 있다면 댓글로 이야기 나눠봐요.

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News AI 에이전트에게도 '내비게이션'이 필요하다 — Agentic Resource Discovery 이야기

Hacker News 프롬프트 토큰을 줄이면 정말 돈이 굳을까? 토큰 압축의 함정

원문 보기 (Hacker News)

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요