[심층분석] AI 토큰값이 무섭다면? LLM에 보내기 전에 데이터를 60~95% 압축하는 Headroom 이야기

요즘 AI 개발자들의 진짜 고민, '토큰값'

AI 에이전트를 직접 만들어본 분이라면 아마 한 번쯤 이런 경험 있으실 거예요. 잘 돌아가는 챗봇이나 코딩 에이전트를 만들었는데, 월말에 API 청구서를 보고 깜짝 놀라는 거죠. "내가 이렇게 많이 썼다고?" 하면서요.

그 원인을 따라가 보면 대부분 '토큰(token)' 문제로 귀결돼요. 토큰이라는 게 뭐냐면, 쉽게 말해서 AI가 글자를 처리하는 최소 단위예요. 우리가 글을 '단어'로 세듯이, LLM(거대언어모델)은 텍스트를 토큰으로 잘라서 읽거든요. 그리고 이 토큰 개수만큼 돈을 내요. 입력에 들어가는 토큰, 출력으로 나오는 토큰 모두요.

문제는 요즘 AI 에이전트들이 어마어마하게 많은 텍스트를 LLM에 밀어 넣는다는 거예요. 예를 들어 코딩 에이전트가 터미널 명령어를 실행하면 로그가 수백 줄씩 쏟아지죠. 데이터베이스를 조회하면 JSON 덩어리가 통째로 들어오고요. 검색해서 가져온 문서 조각(이걸 RAG 청크라고 불러요)도 그대로 모델한테 던져집니다. 이 모든 게 토큰으로 환산돼서 비용이 되고, 또 컨텍스트 윈도우(AI가 한 번에 기억할 수 있는 용량)를 빠르게 채워버려요.

바로 이 지점을 정조준한 도구가 등장했어요. chopratejas/headroom이라는 오픈소스 프로젝트인데요. 슬로건이 아주 명확해요. "LLM에 도달하기 전에 데이터를 압축하라." 도구 출력, 로그, 파일, RAG 청크를 모델한테 보내기 전에 미리 줄여서, 토큰을 60~95%나 절약하면서도 답변 품질은 그대로 유지한다는 거죠.

Headroom이 정확히 뭘 하는 도구냐면

Headroom을 한 문장으로 설명하면 'AI 에이전트를 위한 컨텍스트 압축 레이어(layer)'예요. 레이어라는 표현이 어려우면, 'LLM 앞에 끼워 넣는 중간 필터' 정도로 생각하면 돼요.

비유를 하나 들어볼게요. 우리가 누군가에게 보고를 한다고 쳐요. 그런데 회의록 50페이지를 통째로 던지면서 "이거 읽고 판단해" 하면 받는 사람도 힘들고 시간도 오래 걸리잖아요. 반면 핵심만 추려서 "결론은 이거고, 근거는 셋"이라고 정리해서 주면 훨씬 빠르고 정확하게 판단할 수 있죠. Headroom이 하는 일이 딱 이거예요. LLM에게 줄 정보를 미리 핵심만 추려서 정리해주는 똑똑한 비서인 셈이죠.

공식 설명에 따르면 Headroom은 세 가지 형태로 쓸 수 있어요.

라이브러리(library): 여러분 코드 안에서 함수처럼 직접 불러다 쓰는 방식이에요. "이 텍스트 압축해줘" 하고 호출하는 거죠.
프록시(proxy): 쉽게 말해 '중간 다리' 역할을 하는 서버예요. 여러분의 앱과 OpenAI 같은 LLM API 사이에 Headroom을 세워두면, 오가는 데이터를 자동으로 압축해줘요. 기존 코드를 거의 안 고쳐도 된다는 게 장점이죠.
MCP 서버: MCP는 'Model Context Protocol'의 약자인데요, 앤트로픽이 만든 표준으로, AI 에이전트가 외부 도구나 데이터에 연결되는 규격이에요. Headroom을 MCP 서버로 띄우면 Claude 같은 에이전트가 도구를 쓸 때 나오는 출력을 알아서 압축해줍니다.

그리고 흥미로운 점이 몇 가지 더 있어요. 압축 알고리즘이 6가지나 들어 있고, 로컬에서 동작(local-first)하며, 무엇보다 압축이 되돌릴 수 있다(reversible)는 거예요. 마지막 게 특히 중요한데, 뒤에서 다시 설명할게요.

어떻게 데이터를 줄이면서도 답은 똑같이 나올까

여기서 자연스럽게 드는 의문. "데이터를 60~95%나 버렸는데 어떻게 같은 답이 나오지? 정보가 날아가는 거 아냐?" 맞아요, 아주 합리적인 의심이에요. 핵심은 '의미 없는 중복을 골라서 줄인다'는 데 있어요.

실제 도구 출력이나 로그를 떠올려 보세요. 엄청나게 반복적이고 형식적인 내용이 많아요. 예를 들어 로그 파일을 보면 똑같은 타임스탬프 형식, 똑같은 헤더, 똑같은 구분선이 수천 번 반복되죠. JSON 응답도 마찬가지예요. 키 이름이 매 항목마다 똑같이 반복되고, 들여쓰기 공백이 가득하고요. 사람이 읽기엔 편하지만, AI 입장에서 보면 같은 패턴을 반복해서 읽느라 토큰만 낭비하는 거예요.

Headroom의 알고리즘들은 이런 '정보량은 적은데 토큰은 많이 잡아먹는 부분'을 찾아서 압축해요. 반복되는 구조는 한 번만 남기고, 불필요한 공백이나 장식은 걷어내고, RAG 청크에서 질문과 관련 없는 문장은 솎아내는 식이죠. 핵심 의미를 담은 알맹이는 그대로 두고 껍데기만 벗겨내니까, 같은 질문을 던졌을 때 같은 답이 나올 수 있는 거예요.

그리고 아까 말한 '되돌릴 수 있다(reversible)'는 특징이 여기서 빛을 발해요. 압축한 데이터를 나중에 다시 원본으로 복원할 수 있다는 뜻인데요. 이게 왜 중요하냐면, 압축은 어디까지나 '모델한테 전달할 때'만 쓰고, 실제로 어떤 데이터가 오갔는지는 그대로 보관하고 추적할 수 있어야 디버깅도 하고 감사(audit)도 할 수 있잖아요. 정보를 영구히 날려버리는 게 아니라 '잠깐 압축포장' 했다가 필요하면 푼다는 개념이라, 안심하고 쓸 수 있는 거죠.

또 하나 눈여겨볼 건 이 프로젝트가 Rust로 작성됐다는 점이에요. 저장소를 보면 Cargo.toml, crates, rust-toolchain.toml 같은 Rust 흔적이 가득하거든요. Rust는 속도가 빠르면서도 메모리를 안전하게 다루는 언어로 유명한데요, 압축이라는 작업은 LLM에 데이터가 가는 길목에 끼어들기 때문에 '여기서 느려지면 전체가 느려지는' 병목이 될 수 있어요. 그래서 가능한 한 빠른 언어로 만든 거죠. 동시에 파이썬(pyproject.toml)이나 타입스크립트(sdk/typescript) SDK도 제공해서, 실제 개발자들이 익숙한 언어로 쉽게 붙여 쓸 수 있게 배려했고요.

비슷한 도구들과 뭐가 다를까

토큰을 줄이려는 시도는 사실 Headroom이 처음은 아니에요. 업계에서는 여러 갈래로 이 문제를 풀어왔거든요. 각각이 어떻게 다른지 쉬운 비유로 정리해볼게요.

첫째, 프롬프트 압축 도구들. 마이크로소프트의 LLMLingua 같은 게 대표적인데요. 이건 사람이 작성한 긴 프롬프트(지시문)를 작은 모델로 분석해서 덜 중요한 단어를 지워내는 방식이에요. '문장 다이어트'에 가깝죠. 다만 이건 주로 '사람이 쓴 프롬프트'를 대상으로 해요. 반면 Headroom은 '도구가 뱉어낸 출력, 로그, 파일' 같은 기계 데이터를 정조준한다는 점에서 결이 달라요.

둘째, RAG 단계의 재정렬(re-ranking) 기법. 검색해 온 문서를 모델에 넣기 전에 관련도 순으로 추려내는 방식인데요. '책장에서 필요한 책만 골라 책상에 올려두는' 느낌이에요. Headroom도 RAG 청크 압축을 다루지만, 단순히 골라내는 걸 넘어 골라낸 것 안에서도 더 짜내는 데까지 간다는 차이가 있어요.

셋째, 그냥 모델한테 '요약해줘'라고 시키는 방식. 가장 흔하게들 쓰는데, 이건 함정이 있어요. 요약을 시키려면 또 LLM을 호출해야 하고, 그러면 거기서 또 토큰값과 시간이 들어가잖아요. 배보다 배꼽이 커지는 거죠. Headroom은 이걸 LLM 없이 알고리즘으로 처리하니까(local-first) 추가 비용도 적고 속도도 빨라요.

결국 Headroom의 포지셔닝은 '에이전트가 도구를 쓸 때 발생하는 기계적 데이터를, LLM 호출 없이, 되돌릴 수 있게, 빠르게 줄인다'는 조합에 있어요. 각각의 특징을 따로 보면 다른 도구에도 있지만, 이걸 하나로 묶어서 라이브러리·프록시·MCP라는 세 가지 친숙한 형태로 포장해 낸 게 강점인 거죠.

한국 개발자에게 주는 실무 시사점

그럼 우리 입장에서 이걸 어떻게 써먹을 수 있을까요? 구체적인 시나리오로 풀어볼게요.

시나리오 1: 사내 코딩 에이전트 운영 중이라면. 요즘 많은 회사가 Claude나 GPT 기반 코딩 도우미를 사내에 붙여 쓰죠. 그런데 이런 에이전트는 npm install 로그, 테스트 결과, 빌드 출력 같은 걸 통째로 모델에 넣는 경우가 많아요. 여기에 Headroom을 프록시로 끼우면, 코드를 거의 안 고치고도 이런 장황한 로그를 압축해서 월 API 비용을 눈에 띄게 줄일 수 있어요. 토큰 절감이 60~95%라면, 비용도 비슷한 비율로 빠지는 셈이죠.

시나리오 2: RAG 챗봇을 만들고 있다면. 사내 문서나 고객 데이터를 검색해서 답하는 챗봇은 검색된 문서 조각을 모델에 잔뜩 넣는 구조예요. 이게 쌓이면 컨텍스트 윈도우가 금방 차고, 정작 중요한 정보가 밀려나는 'lost in the middle(중간에 있는 정보를 모델이 놓치는 현상)' 문제도 생겨요. 청크를 압축하면 같은 윈도우 안에 더 알찬 정보를 담을 수 있으니 정확도까지 올라갈 여지가 있죠.

도입할 때 고려할 점도 짚어야 공정하겠죠. 압축은 결국 '원본을 변형'하는 거예요. 그러니까 처음부터 운영 환경에 바로 넣기보다는, 우리 데이터에 적용했을 때 정말 답변 품질이 유지되는지 직접 벤치마크를 돌려보는 게 중요해요. 저장소에 benchmarks 폴더가 따로 있다는 건, 만든 쪽도 '검증해보고 써라'라는 메시지를 주는 거예요. 또 압축이 잘 안 먹히는 데이터 유형(이미 짧거나 정보 밀도가 높은 텍스트)도 있으니, 어디에 적용할지 선별하는 안목도 필요하고요.

학습 로드맵을 제안하자면 이래요. (1) 먼저 토큰과 컨텍스트 윈도우 개념을 확실히 잡으세요. (2) 본인이 만든 에이전트에서 어떤 데이터가 토큰을 많이 잡아먹는지 측정해보세요. 측정 없이 최적화는 없어요. (3) Headroom을 라이브러리 형태로 작은 부분에 먼저 적용해보고, 답이 그대로인지 비교하세요. (4) 확신이 서면 프록시나 MCP로 범위를 넓혀가는 거죠.

마무리하며

Headroom의 등장은 AI 개발이 어느 단계에 들어섰는지를 잘 보여줘요. 처음엔 "LLM으로 뭔가 만들 수 있다!"가 화두였다면, 이제는 "어떻게 하면 싸고 빠르고 효율적으로 운영할까"가 진짜 경쟁력이 되는 시대로 넘어온 거죠. 모델 성능을 끌어올리는 것만큼, 모델에 들어가고 나오는 데이터를 다이어트시키는 '컨텍스트 엔지니어링'이 하나의 정식 분야로 자리 잡고 있는 거예요.

앞으로는 이런 압축 레이어가 LLM 인프라의 기본 부품처럼 당연하게 깔리는 날이 올지도 몰라요. 지금 데이터베이스 앞에 캐시를 두는 게 상식이듯이, LLM 앞에 압축 레이어를 두는 것도 상식이 되는 식으로요.

여러분은 어떠세요? 지금 운영 중인 AI 서비스에서 토큰값 때문에 머리 아팠던 경험, 혹시 있으신가요? 만약 도구 출력이나 로그를 자동으로 압축해주는 레이어가 있다면, 가장 먼저 어디에 적용해보고 싶으세요? 댓글로 각자의 실전 고민을 나눠보면 좋겠어요. 🙂

🔗 출처: GitHub

이 글도 읽어보세요