
이게 뭐하는 물건이야
GitHub에 공개된 Browser Harness는 한 줄로 말하면 "LLM에게 브라우저를 자유롭게 조종하게 해주는 런타임"이에요. 요즘 자주 들리는 브라우저 에이전트(browser agent) 카테고리의 오픈소스 도구인데, 만든 팀이 browser-use라는 점이 눈에 띕니다. browser-use는 이미 별 5만 개 넘게 받으며 이 분야의 대표주자로 자리 잡은 프로젝트거든요.
개념 자체는 OpenAI의 Operator, Anthropic의 Computer Use, Google의 Project Mariner와 같은 계열이에요. 인간이 브라우저에서 하는 일 - 로그인하고, 검색하고, 폼을 채우고, 파일을 다운로드하는 - 을 LLM이 대신 해주는 거죠. 차이는 Browser Harness가 오픈소스이고, 자기가 원하는 모델을 붙일 수 있다는 점이에요.
어떻게 동작하는가
기존의 웹 자동화 도구(Playwright, Puppeteer, Selenium)는 개발자가 스크립트를 짜야 했어요. "이 버튼을 클릭해라, 이 필드에 뭘 입력해라" 같은 명령을 하나하나 명시해야 했죠. Browser Harness는 이 흐름을 뒤집습니다.
실행 구조는 대략 이래요. 먼저 Playwright 같은 엔진으로 실제 크롬 브라우저를 띄워요. 거기서 현재 화면의 DOM 구조와 스크린샷을 뽑아서 LLM에게 보여줘요. LLM은 사용자 목표(예: "항공권 최저가를 찾아서 예약해줘")를 받고, "지금 상황에서 다음에 뭘 클릭해야 할지"를 결정합니다. 그 결정이 명령어로 변환돼서 브라우저에 전달되고, 바뀐 화면을 다시 LLM에게 보여주는 루프가 돌아가는 거예요.
핵심은 DOM 기반 요소 인식이에요. 순수 이미지로만 보고 클릭하는 방식(예: 좌표 지정)은 해상도나 화면 변화에 취약한데, DOM의 버튼·링크·입력 필드를 번호로 라벨링해서 LLM이 '3번 버튼을 클릭해'라고 말하게 하면 훨씬 안정적이에요. browser-use 팀이 계속 다듬어온 접근이죠.
Harness라는 이름이 붙은 이유도 중요한데요, 이건 에이전트의 실행 환경을 모듈화했다는 뜻이에요. 모델 선택(GPT, Claude, Gemini, 로컬 LLM 모두 가능), 브라우저 설정, 실패 시 재시도 정책, 작업 로깅 같은 걸 플러그인처럼 붙일 수 있게 설계됐어요. 즉 이 도구 위에서 자기만의 브라우저 에이전트를 빠르게 조립할 수 있는 거죠.
기존 도구와 뭐가 다른가
비교 대상이 몇 개 있어요. OpenAI의 Operator는 품질은 좋지만 완전히 폐쇄형이고 ChatGPT Pro 요금제가 필요해요. Anthropic의 Computer Use는 API로 열려 있지만 화면 전체를 이미지로 다루기 때문에 비용과 지연이 큽니다. Playwright + LangChain 조합은 직접 짜면 유연하지만 인프라를 다 본인이 만들어야 하죠.
Browser Harness는 이 틈을 노려요. 오픈소스고, DOM 기반이라 효율적이고, 모델 선택이 자유롭습니다. 특히 로컬 LLM(Qwen, Llama, DeepSeek)으로도 돌릴 수 있다는 점이 매력적이에요. 기업 보안상 외부 API에 페이지 데이터를 넘길 수 없을 때 결정적인 차이를 만들죠.
반면 한계도 분명해요. LLM 기반 에이전트는 아직 캡차, 복잡한 SPA(싱글 페이지 앱), 빠르게 바뀌는 UI 앞에서 자주 실수합니다. '90%는 잘 되는데 10%에서 꼬인다'는 평이 많고, 그 10%가 실제 업무 자동화에서는 치명적일 수 있어요.
한국 개발자가 써볼 만한 시나리오
실무 적용 관점에서 적합한 영역과 그렇지 않은 영역이 꽤 뚜렷해요.
잘 맞는 경우: 내부 업무 자동화가 대표적이에요. 매일 여러 관리자 페이지에서 리포트를 긁어다 취합하는 작업, QA 테스트 케이스 자동 탐색, 경쟁사 가격 모니터링, 리서치 중 여러 사이트를 오가며 정보 수집하는 작업 같은 거요. 이런 일은 정확도가 100%일 필요가 없고, 사람이 결과를 한 번 더 확인하면 되거든요.
안 맞는 경우: 금융 거래, 결제, 법적 계약처럼 한 번의 실수가 큰 손해로 이어지는 업무예요. 또 트래픽이 큰 크롤링은 여전히 전용 스크래퍼(Playwright 직접 작성)가 더 싸고 안정적입니다.
하나 더, 법적 이슈를 꼭 챙기세요. 서비스 이용약관에서 자동화 접근을 금지하는 경우가 많고, 특히 한국은 정보통신망법과 부정경쟁방지법에 걸릴 수 있는 경계가 있어요. 내부용으로 쓰는 건 괜찮지만, 외부 서비스를 자동으로 조작하는 에이전트를 상용 제품에 넣을 때는 법무 검토가 필수예요.
마무리
브라우저 에이전트는 아직 '완전 자동'보다는 '잘 보조해주는 비서' 단계예요. 그래도 1년 전과 비교하면 눈에 띄게 똑똑해졌고, 오픈소스로 이 정도 인프라를 공짜로 가져다 쓸 수 있다는 것 자체가 기회입니다.
여러분의 업무 중에 '매일 반복되는데 스크립트로 짜기엔 규칙이 애매한' 브라우저 작업이 있나요? 거기가 바로 이런 에이전트의 스윗 스팟이에요.
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공