처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.04.25 34

Browser Harness - LLM에게 브라우저 통제권을 통째로 넘기는 실험

Hacker News 원문 보기
Browser Harness - LLM에게 브라우저 통제권을 통째로 넘기는 실험

이게 뭐하는 물건이야

GitHub에 공개된 Browser Harness는 한 줄로 말하면 "LLM에게 브라우저를 자유롭게 조종하게 해주는 런타임"이에요. 요즘 자주 들리는 브라우저 에이전트(browser agent) 카테고리의 오픈소스 도구인데, 만든 팀이 browser-use라는 점이 눈에 띕니다. browser-use는 이미 별 5만 개 넘게 받으며 이 분야의 대표주자로 자리 잡은 프로젝트거든요.

개념 자체는 OpenAI의 Operator, Anthropic의 Computer Use, Google의 Project Mariner와 같은 계열이에요. 인간이 브라우저에서 하는 일 - 로그인하고, 검색하고, 폼을 채우고, 파일을 다운로드하는 - 을 LLM이 대신 해주는 거죠. 차이는 Browser Harness가 오픈소스이고, 자기가 원하는 모델을 붙일 수 있다는 점이에요.

어떻게 동작하는가

기존의 웹 자동화 도구(Playwright, Puppeteer, Selenium)는 개발자가 스크립트를 짜야 했어요. "이 버튼을 클릭해라, 이 필드에 뭘 입력해라" 같은 명령을 하나하나 명시해야 했죠. Browser Harness는 이 흐름을 뒤집습니다.

실행 구조는 대략 이래요. 먼저 Playwright 같은 엔진으로 실제 크롬 브라우저를 띄워요. 거기서 현재 화면의 DOM 구조와 스크린샷을 뽑아서 LLM에게 보여줘요. LLM은 사용자 목표(예: "항공권 최저가를 찾아서 예약해줘")를 받고, "지금 상황에서 다음에 뭘 클릭해야 할지"를 결정합니다. 그 결정이 명령어로 변환돼서 브라우저에 전달되고, 바뀐 화면을 다시 LLM에게 보여주는 루프가 돌아가는 거예요.

핵심은 DOM 기반 요소 인식이에요. 순수 이미지로만 보고 클릭하는 방식(예: 좌표 지정)은 해상도나 화면 변화에 취약한데, DOM의 버튼·링크·입력 필드를 번호로 라벨링해서 LLM이 '3번 버튼을 클릭해'라고 말하게 하면 훨씬 안정적이에요. browser-use 팀이 계속 다듬어온 접근이죠.

Harness라는 이름이 붙은 이유도 중요한데요, 이건 에이전트의 실행 환경을 모듈화했다는 뜻이에요. 모델 선택(GPT, Claude, Gemini, 로컬 LLM 모두 가능), 브라우저 설정, 실패 시 재시도 정책, 작업 로깅 같은 걸 플러그인처럼 붙일 수 있게 설계됐어요. 즉 이 도구 위에서 자기만의 브라우저 에이전트를 빠르게 조립할 수 있는 거죠.

기존 도구와 뭐가 다른가

비교 대상이 몇 개 있어요. OpenAI의 Operator는 품질은 좋지만 완전히 폐쇄형이고 ChatGPT Pro 요금제가 필요해요. Anthropic의 Computer Use는 API로 열려 있지만 화면 전체를 이미지로 다루기 때문에 비용과 지연이 큽니다. Playwright + LangChain 조합은 직접 짜면 유연하지만 인프라를 다 본인이 만들어야 하죠.

Browser Harness는 이 틈을 노려요. 오픈소스고, DOM 기반이라 효율적이고, 모델 선택이 자유롭습니다. 특히 로컬 LLM(Qwen, Llama, DeepSeek)으로도 돌릴 수 있다는 점이 매력적이에요. 기업 보안상 외부 API에 페이지 데이터를 넘길 수 없을 때 결정적인 차이를 만들죠.

반면 한계도 분명해요. LLM 기반 에이전트는 아직 캡차, 복잡한 SPA(싱글 페이지 앱), 빠르게 바뀌는 UI 앞에서 자주 실수합니다. '90%는 잘 되는데 10%에서 꼬인다'는 평이 많고, 그 10%가 실제 업무 자동화에서는 치명적일 수 있어요.

한국 개발자가 써볼 만한 시나리오

실무 적용 관점에서 적합한 영역과 그렇지 않은 영역이 꽤 뚜렷해요.

잘 맞는 경우: 내부 업무 자동화가 대표적이에요. 매일 여러 관리자 페이지에서 리포트를 긁어다 취합하는 작업, QA 테스트 케이스 자동 탐색, 경쟁사 가격 모니터링, 리서치 중 여러 사이트를 오가며 정보 수집하는 작업 같은 거요. 이런 일은 정확도가 100%일 필요가 없고, 사람이 결과를 한 번 더 확인하면 되거든요.

안 맞는 경우: 금융 거래, 결제, 법적 계약처럼 한 번의 실수가 큰 손해로 이어지는 업무예요. 또 트래픽이 큰 크롤링은 여전히 전용 스크래퍼(Playwright 직접 작성)가 더 싸고 안정적입니다.

하나 더, 법적 이슈를 꼭 챙기세요. 서비스 이용약관에서 자동화 접근을 금지하는 경우가 많고, 특히 한국은 정보통신망법과 부정경쟁방지법에 걸릴 수 있는 경계가 있어요. 내부용으로 쓰는 건 괜찮지만, 외부 서비스를 자동으로 조작하는 에이전트를 상용 제품에 넣을 때는 법무 검토가 필수예요.

마무리

브라우저 에이전트는 아직 '완전 자동'보다는 '잘 보조해주는 비서' 단계예요. 그래도 1년 전과 비교하면 눈에 띄게 똑똑해졌고, 오픈소스로 이 정도 인프라를 공짜로 가져다 쓸 수 있다는 것 자체가 기회입니다.

여러분의 업무 중에 '매일 반복되는데 스크립트로 짜기엔 규칙이 애매한' 브라우저 작업이 있나요? 거기가 바로 이런 에이전트의 스윗 스팟이에요.


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

AI 도구, 직접 활용해보세요

AI 시대, 코딩으로 수익을 만드는 방법을 배울 수 있습니다.

AI 활용 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.