Claude Code 시스템 프롬프트 버그: 사용자 비용을 갉아먹는 조용한 문제

무슨 일이 있었나요

Anthropic의 공식 코딩 에이전트인 Claude Code에서 시스템 프롬프트 관련 버그가 보고됐어요. 이슈 트래커에 올라온 내용을 보면, 시스템 프롬프트가 의도치 않게 부풀려지거나 중복돼서 사용자가 쓰지도 않은 토큰에 대한 비용을 청구받는 상황이 발생하고 있습니다. 게다가 이 문제는 단순한 비용 낭비를 넘어서, 매니지드 환경에서 운영 중인 에이전트를 "브릭"(brick, 벽돌처럼 동작 불능 상태가 됨)시키는 케이스까지 보고됐어요.

시스템 프롬프트가 뭐냐면, LLM에게 "너는 이런 역할이고, 이런 규칙을 지켜야 해"라고 미리 지정해주는 텍스트예요. 사용자가 직접 보지는 못하지만, 모든 요청마다 모델한테 함께 전달됩니다. 그래서 시스템 프롬프트가 길어지면 매 요청마다 그만큼 토큰을 소모하게 돼요.

기술적으로 어떤 문제일까요

버그의 핵심은 시스템 프롬프트가 누적되거나 중복 삽입되는 동작으로 보입니다. 보통 에이전트는 멀티턴 대화를 처리할 때 컨텍스트를 관리해야 하는데, 어떤 조건에서 시스템 프롬프트가 한 번이 아니라 여러 번 컨텍스트에 끼워 넣어지는 거예요. 결과적으로 매 호출마다 입력 토큰 수가 비정상적으로 많아지고, 입력 토큰 비용이 청구됩니다.

더 심각한 건 "managed agents" 환경입니다. 이건 사용자가 직접 모델 호출을 컨트롤하지 않고, 플랫폼이 알아서 에이전트 워크플로우를 돌려주는 형태예요. 여기서 시스템 프롬프트가 비정상적으로 부풀면, 모델의 컨텍스트 윈도우 한계(예: 200K 토큰)를 넘겨버려서 요청이 완전히 실패하기 시작합니다. 사용자 입장에선 "왜 갑자기 내 에이전트가 멈췄지?" 싶은 상황이 되는 거예요.

비용 청구의 윤리적 문제

이 이슈가 단순 버그를 넘어 논의가 뜨거운 이유는 비용 청구 정책 때문이에요. 일반적인 SaaS라면 서비스 제공자의 버그로 인한 자원 낭비는 청구 대상이 아닙니다. 그런데 LLM API는 토큰 단위로 정밀하게 과금되다 보니, 시스템 측 버그로 발생한 잉여 토큰까지 자동으로 사용자 청구서에 들어가는 구조예요.

특히 Claude Code 같은 "고객이 자기 API 키로 사용하는" 모델에서는 이게 직접적인 금전 손실로 이어집니다. 사용자가 만든 코드는 멀쩡한데, 도구 자체가 토큰을 새고 있는 셈이거든요. 보고된 케이스 중에는 평소 대비 수배에 달하는 비용이 청구된 경우도 있다고 합니다.

비슷한 사례들

LLM 도구에서 컨텍스트 누수, 토큰 낭비 이슈는 사실 처음이 아닙니다. 초기 LangChain 시절에도 prompt template이 중복 렌더링되면서 토큰 비용이 폭증한 사례가 종종 보고됐어요. Cursor나 Aider 같은 다른 코딩 에이전트도 컨텍스트 관리 버그로 인한 비용 이슈를 한두 번씩 겪은 이력이 있습니다.

공통적인 교훈은 "에이전트 도구는 자기가 얼마나 토큰을 쓰는지 사용자에게 투명하게 보여줘야 한다"는 거예요. 호출별 토큰 카운트, 컨텍스트 점유율, 시스템 프롬프트 크기 같은 메트릭을 사용자가 볼 수 있어야 이런 버그가 빨리 발견됩니다.

한국 개발자에게는

실무에서 LLM API를 쓰고 있다면 몇 가지 점검해볼 만해요. 첫째, 토큰 사용량 알림을 꼭 걸어두세요. AWS, GCP, OpenAI 모두 일별/월별 한도와 알림을 설정할 수 있어요. 평소 평균의 2~3배가 찍히면 슬랙으로 즉시 알림이 가게 해두면 큰 사고를 막을 수 있습니다.

둘째, 에이전트 도구를 도입할 때는 첫 한두 주 동안 토큰 로그를 직접 확인하세요. 도구 자체의 버그로 인한 토큰 낭비가 없는지, 시스템 프롬프트가 합리적인 크기인지 점검해보는 거예요. 특히 사내 비용으로 운영 중이라면 이 점검은 필수입니다.

셋째, 공식 채널 외에도 GitHub Issues를 모니터링하는 습관을 들이세요. 이번 이슈처럼 "내가 겪고 있는 게 나만의 문제가 아니라 알려진 버그"였다면, 빨리 알수록 대응이 쉬워집니다.