Claude Code가 조용히 나빠지고 있는지 감지하는 도구, CC-Canary

도입: AI 코딩 도구의 숨겨진 문제

Claude Code, Cursor, Copilot 같은 AI 코딩 도구를 실무에서 쓰는 분들이 점점 늘고 있죠. 그런데 이런 도구들을 오래 쓰다 보면 이상한 경험을 한 적 있을 거예요. 어제까지만 해도 잘 되던 작업이 오늘은 갑자기 엉뚱한 답을 주거나, 예전엔 한 번에 해결하던 걸 여러 번 시도해야 되는 경우요. 모델이 바뀐 건지, 내 프롬프트가 이상한 건지, 아니면 운이 나쁜 건지 알기가 어렵거든요.

이런 문제를 "회귀(regression)"라고 불러요. 소프트웨어에서 회귀는 원래 되던 기능이 안 되게 되는 걸 말하는데, AI 모델에서도 비슷한 일이 벌어져요. 모델 공급자(Anthropic, OpenAI 같은 회사)가 모델을 업데이트하거나 내부 설정을 바꾸면, 어떤 작업에서는 더 좋아지지만 다른 작업에서는 더 나빠질 수 있거든요. 문제는 이걸 사용자 입장에서 객관적으로 측정하기가 너무 어렵다는 거예요.

CC-Canary는 바로 이 문제를 풀려고 나온 오픈소스 도구예요. delta-hq라는 팀이 만들었는데, Claude Code의 성능이 시간이 지나면서 어떻게 변하는지 지속적으로 모니터링해주는 역할을 해요.

어떻게 동작하냐면요

이름의 "Canary(카나리아)"는 광산에서 유독가스를 감지하려고 넣어두던 새에서 따온 거예요. 카나리아가 먼저 쓰러지면 광부들이 대피하는 식이었죠. CI/CD나 배포 쪽에서도 "카나리 배포"라는 용어가 있는데, 문제를 먼저 감지하기 위한 시험대라는 의미로 쓰여요.

CC-Canary도 비슷한 발상이에요. 미리 정의해둔 코딩 태스크들을 Claude Code에게 주기적으로 시켜보고, 결과가 기대치에 부합하는지 체크하는 거죠. 예를 들면 "이 버그가 있는 함수를 고쳐라", "이 요구사항대로 리팩토링해라" 같은 명확한 정답이 있는 태스크를 벤치마크로 준비해두고, 매일 또는 매주 돌려서 점수를 기록해요. 점수가 급격히 떨어지면 뭔가 회귀가 있었다는 신호가 되는 거예요.

중요한 건 이게 단순히 "코드가 컴파일되냐" 같은 피상적인 체크가 아니라, 실제 태스크 완료율과 품질을 여러 차원에서 측정한다는 점이에요. 코드가 맞는지, 기존 테스트가 여전히 통과하는지, 시도 횟수가 얼마나 되는지 같은 걸 추적하는 거죠.

업계 맥락에서 보면

사실 LLM의 성능 변동성 문제는 꽤 오래된 이야기예요. 스탠포드의 연구자들이 2023년에 "How Is ChatGPT's Behavior Changing Over Time?"이라는 논문을 냈는데, GPT-4가 몇 달 사이에 수학 문제 정답률이 크게 떨어진 걸 보여줬어요. 당시엔 OpenAI가 모델을 조용히 바꿨다는 의혹이 있었고, 업계 전체가 "블랙박스 같은 AI 제공자를 어떻게 신뢰하고 쓰지?"라는 고민에 빠졌어요.

CC-Canary 외에도 이런 측정을 시도하는 프로젝트들이 있어요. SWE-Bench는 실제 오픈소스 레포의 이슈를 AI에게 풀어보게 하는 벤치마크고, Aider의 제작자가 만든 리더보드도 주기적으로 여러 모델의 코딩 능력을 비교해요. 하지만 이런 건 대부분 "모델들 간 비교"에 초점이 맞춰져 있어요. 반면 CC-Canary는 "같은 모델의 시간에 따른 변화"를 보는 거라 조금 다른 관점이에요.

기업 입장에서도 중요한 문제예요. 사내 개발 워크플로우에 AI를 깊게 녹인 회사라면, 제공자가 모델을 바꿔서 생산성이 떨어지는 일이 있을 때 그걸 데이터로 증명할 수 있어야 계약 갱신이나 도구 변경 같은 결정을 내릴 수 있거든요. 감으로만 "요즘 좀 이상해"라고 말해선 의사결정이 안 되니까요.

한국 개발자에게 주는 시사점

요즘 한국 회사들도 AI 코딩 도구 도입에 진심이잖아요. 근데 도입하고 나서 정작 관리는 거의 안 하는 경우가 많아요. 이런 도구를 도입했다면 성능 트래킹도 같이 해보는 걸 추천해요. CC-Canary 같은 도구를 돌려볼 수도 있고, 아니면 팀 내부적으로 간단한 벤치마크 세트를 만들어서 주기적으로 돌려보는 것도 좋아요.

예를 들면 회사 코드베이스 스타일에 맞는 작은 리팩토링 태스크 10개 정도를 준비해두고, 매주 한 번씩 돌려서 성공률을 기록하는 거예요. 이런 데이터가 쌓이면 "AI 도구 도입 후 개발 속도가 올라갔다"는 주장에 근거가 생기고, 반대로 성능이 떨어지기 시작하면 대안을 찾을 타이밍도 잡을 수 있어요.

또 하나, AI 에이전트 제품을 만드는 회사라면 이런 모니터링은 선택이 아니라 필수예요. 내 제품 뒤에 있는 LLM이 조용히 나빠지면 내 제품도 나빠지는 거니까요.

마무리

AI 도구를 쓰는 시대에서 가장 중요한 기술 중 하나는 "AI를 측정하는 법"이에요. 모델의 출력은 비결정적이라 전통적인 단위 테스트로는 잡히지 않는 회귀가 생기거든요. 여러분의 팀에서는 AI 코딩 도구의 성능을 어떻게 추적하고 있나요? 아니면 추적하지 않는다면, 어떤 지표가 가장 의미 있을 것 같나요?

🔗 출처: Hacker News

이 글도 읽어보세요