"저 Claude 해지했어요": 한 개발자의 토큰 이슈와 품질 저하 고발

무슨 이야기인가

Nicky Reinert라는 독일 개발자가 자신의 블로그에 Claude 구독을 해지한 이유를 조목조목 정리한 글을 올렸어요. AI 개발 도구로 각광받던 Claude에 대해 실사용자 입장에서 느낀 불만을 토큰 소비, 답변 품질, 고객 지원 세 가지 축으로 풀어냈습니다.

요즘 AI 코딩 도구가 주니어부터 시니어까지 많은 개발자의 일상에 녹아든 만큼, 이런 비판적인 사용자 리뷰는 우리가 어떻게 이런 도구를 평가하고 선택해야 할지 힌트를 줘요. 특히 돈을 내고 쓰는 입장에서는 "지금 쓰는 서비스가 내 돈값을 하는가"를 주기적으로 점검할 필요가 있죠.

토큰 이슈: "쓰지도 않았는데 다 썼다고?"

첫 번째 불만은 토큰 소비 문제였어요. 토큰이 뭐냐면, AI 모델이 텍스트를 처리하는 최소 단위예요. 한국어로 대략 한두 글자, 영어로는 한 단어 근처로 계산된다고 생각하면 돼요. Claude Pro 구독은 월 일정량의 토큰을 사용할 수 있는 구조인데, 작성자는 "예전보다 같은 작업을 해도 토큰이 훨씬 빨리 소진된다"고 주장해요.

왜 이런 일이 벌어질까요? 작성자는 몇 가지 가설을 제시해요. 첫째, 내부 시스템 프롬프트(AI에게 주는 기본 지시문)가 점점 길어지면서 매 대화마다 숨겨진 토큰 소비가 늘었을 가능성. 둘째, 확장된 사고(extended thinking) 기능이 도입되면서 사용자에게는 안 보이는 추론 토큰이 청구에 반영되는 구조. 셋째, 도구 사용(tool use)이 활성화되면서 중간 단계마다 컨텍스트가 재주입되는 오버헤드.

이 문제는 사실 OpenAI API를 써본 분들도 비슷하게 호소하는 지점이에요. 특히 에이전틱 워크플로우(AI가 여러 도구를 연쇄적으로 사용하는 방식)가 보편화되면서 "실제 생산된 텍스트 대비 청구 토큰 비율"이 예전과 달라진 건 사실이에요.

품질 저하 체감: "예전 같지 않다"

두 번째 포인트는 답변 품질이 떨어졌다는 주장이에요. 이건 정량화하기 어려운 영역이지만, 작성자는 구체적인 예시를 들어요. 같은 유형의 리팩터링 요청을 했을 때, 몇 달 전 Claude는 한 번에 원하는 결과를 내줬는데 지금은 세 번씩 피드백을 줘도 비슷한 수준에 도달하지 못한다는 거예요.

이 현상을 업계에서는 모델 드리프트(model drift)라고 부르기도 해요. 같은 이름의 모델이라도 서비스 제공자가 내부적으로 최적화(양자화, 증류 같은 기법으로 서빙 비용을 줄이는 것)를 하면서 성능이 미세하게 바뀌는 경우가 있거든요. 공식적으로는 동일한 모델이지만 체감은 다를 수 있다는 뜻이에요.

물론 반대 의견도 있어요. 사용자의 기대치가 올라갔거나, 처음 사용할 때는 "와, 신기하다"는 효과 때문에 품질을 후하게 평가하고, 시간이 지나면서 단점이 더 잘 보이는 친숙화 효과일 수도 있죠. 이걸 정확히 가리려면 벤치마크 데이터를 주기적으로 찍어야 하는데, 대부분의 사용자는 그렇게 측정하지 않으니까요.

고객 지원: "사람이 없다"

세 번째는 고객 지원 문제였어요. 결제 이슈나 계정 문제로 문의했을 때, 템플릿 같은 자동 답장만 오가고 실제 해결이 오래 걸렸다는 내용이에요. Anthropic 같은 AI 스타트업은 빠른 성장 중이라 지원 인력이 수요를 못 따라가는 경우가 흔한데, 월 수십 달러를 내는 프로 사용자 입장에서는 납득하기 어려운 상황이죠.

업계 맥락

이런 불만은 Claude에만 해당하는 건 아니에요. ChatGPT Plus, Gemini Advanced, GitHub Copilot 모두 비슷한 성격의 사용자 반발을 주기적으로 겪어요. AI 서비스의 특이점은 "똑같은 제품 이름이지만 속은 계속 바뀐다"는 거예요. 일반 소프트웨어는 버전 번호로 변화를 추적할 수 있지만, AI 서비스는 같은 모델 이름 아래서도 서빙 파라미터가 바뀔 수 있어요.

그래서 최근에는 Cursor, Windsurf, Cline 같은 도구들이 여러 모델을 동시에 쓸 수 있게 해주거나, 로컬에서 Qwen, DeepSeek 같은 오픈 모델을 돌리는 선택지도 힘을 얻고 있어요. "한 서비스에 모든 걸 맡기지 말자"는 분위기가 커지는 중이에요.

한국 개발자에게 주는 시사점

회사 차원에서 Claude, ChatGPT 같은 구독 도구를 쓸 때는 "한 바구니에 달걀 담기"를 조심해야 해요. API 호환성이 있는 추상화 레이어(LiteLLM, OpenRouter 등)를 쓰면 모델을 바꿔가며 비교할 수 있어요. 또 토큰 소비 패턴을 정기적으로 로깅해두면 "왜 이번 달 비용이 올랐지?"를 분석할 근거가 생기죠.

개인 사용자라면, 장기 구독보다는 월 단위로 체험하면서 여러 도구를 번갈아 써보는 것도 방법이에요. AI 도구 생태계는 아직 격변기라 6개월 단위로 판도가 바뀝니다. 지금 1등인 도구가 내년에도 1등이라는 보장이 없어요.