웹사이트에서 원하는 데이터만 쏙 뽑아내는 TypeScript LLM 추출기, Lightfeed Extractor

웹 스크래핑, 아직도 셀렉터 노가다 하고 계신가요?

웹에서 데이터를 긁어오는 작업은 개발자라면 한 번쯤 해봤을 거예요. 상품 가격을 모아본다든지, 뉴스 기사를 자동으로 수집한다든지. 그런데 이게 생각보다 정말 귀찮은 작업이거든요. CSS 셀렉터를 일일이 찾아서 지정해야 하고, 웹사이트 구조가 조금만 바뀌면 코드가 와장창 깨지고요. SPA(싱글 페이지 앱)처럼 자바스크립트로 동적 렌더링되는 사이트는 또 다른 차원의 고통이죠.

최근 오픈소스로 공개된 Lightfeed Extractor는 이 문제를 LLM(대규모 언어 모델)으로 해결하려는 TypeScript 라이브러리예요. 이게 뭐냐면, 웹페이지의 HTML을 통째로 LLM에게 넘기고 "여기서 이런 정보만 뽑아줘"라고 자연어로 요청하면, LLM이 알아서 구조화된 데이터로 돌려주는 방식이에요.

어떻게 동작하는 건가요?

기존 웹 스크래핑은 이런 식이었어요. "이 페이지에서 .product-title 클래스를 가진 div 태그 안의 텍스트를 가져와" 같은 규칙을 개발자가 직접 작성해야 했죠. 사이트마다 HTML 구조가 다르니까, 사이트 10개에서 데이터를 뽑으려면 규칙도 10개를 만들어야 했어요.

Lightfeed Extractor의 접근법은 다릅니다. 먼저 웹페이지의 HTML을 가져온 다음, 불필요한 태그나 스크립트를 정리해서 LLM이 이해하기 좋은 형태로 전처리해요. 그다음 사용자가 정의한 스키마("제목, 가격, 설명을 뽑아줘" 같은 구조 정의)와 함께 LLM에 보내면, LLM이 페이지 내용을 이해하고 해당 정보를 JSON 형태로 깔끔하게 추출해주는 거예요.

핵심은 견고함(robustness)인데요. 웹사이트 구조가 바뀌어도 LLM은 의미를 이해해서 추출하기 때문에, CSS 셀렉터가 깨지는 것처럼 갑자기 작동을 멈추는 일이 훨씬 적어요. 마치 사람에게 "이 페이지에서 가격 정보 좀 찾아줘"라고 부탁하는 것과 비슷하달까요. 사람은 HTML 구조가 바뀌어도 가격이 어디 있는지 눈으로 찾을 수 있잖아요.

기존 도구들과 뭐가 다를까?

사실 LLM을 활용한 웹 스크래핑 도구가 Lightfeed Extractor만 있는 건 아니에요. Python 생태계에는 ScrapeGraphAI나 crawl4ai 같은 도구들이 이미 있고, Firecrawl 같은 SaaS 서비스도 있거든요.

그런데 Lightfeed Extractor가 차별화를 시도하는 지점은 몇 가지 있어요. 우선 TypeScript 네이티브라는 점이에요. Node.js 백엔드를 쓰는 팀이라면 파이썬 의존성 없이 바로 쓸 수 있죠. 그리고 라이브러리 형태라서 기존 프로젝트에 npm 패키지 하나 추가하듯 통합할 수 있어요. Firecrawl 같은 외부 API에 의존하지 않아도 되고요.

또 하나 주목할 점은 다양한 LLM 프로바이더를 지원한다는 건데요. OpenAI의 GPT 시리즈뿐 아니라 Anthropic의 Claude, 로컬에서 돌리는 오픈소스 모델도 연결할 수 있어요. 비용이나 보안 정책에 따라 유연하게 선택할 수 있는 거죠.

다만 한계도 분명해요. LLM API 호출 비용이 건당 발생하니까, 수만 페이지를 대량으로 크롤링하는 용도에는 적합하지 않아요. CSS 셀렉터 기반 스크래핑이 페이지당 비용이 거의 0원인 것에 비하면 꽤 큰 차이죠. 그래서 이 도구는 "소량이지만 구조가 제각각인 페이지에서 정확하게 데이터를 뽑아야 하는" 상황에 가장 잘 맞아요.

한국 개발자가 활용할 수 있는 시나리오

실무에서 이런 도구가 빛을 발하는 케이스를 생각해보면요. 예를 들어 경쟁사 제품 정보를 모니터링하는 내부 도구를 만든다고 해봐요. 경쟁사가 5곳이고 각각 웹사이트 구조가 다르다면, 기존 방식으로는 셀렉터를 5세트 만들고 유지보수해야 하지만, LLM 기반으로는 스키마 하나로 다 커버할 수 있어요.

또는 사내에서 다양한 외부 데이터 소스를 통합하는 ETL 파이프라인을 구축할 때도 유용해요. API가 제공되지 않는 레거시 시스템의 웹 인터페이스에서 데이터를 추출해야 하는 경우가 있거든요. 이런 "비정형 웹 데이터 → 정형 데이터" 변환 작업에 LLM 추출기를 끼워넣으면 개발 시간을 크게 줄일 수 있어요.

TypeScript/Node.js 스택을 쓰는 팀이라면 한번 살펴볼 만한 프로젝트예요. GitHub에서 소스코드와 사용 예제를 확인할 수 있어요.

정리하자면

LLM 기반 웹 데이터 추출은 "비용 대비 정확도"라는 새로운 트레이드오프를 제시하고 있어요. 모든 스크래핑을 대체하긴 어렵지만, 구조가 자주 바뀌거나 다양한 소스를 다뤄야 하는 상황에서는 확실한 생산성 향상을 기대할 수 있죠. 여러분은 웹 스크래핑 할 때 가장 고통스러운 부분이 뭔가요? LLM이 그 고통을 해결해줄 수 있을까요?

🔗 출처: Hacker News

이 글도 읽어보세요