[심층분석] Claude Code를 공짜로? free-claude-code 프로젝트가 던지는 진짜 질문

Claude Code를 무료로 쓰는 시대가 정말 올까요?

요즘 개발자들 사이에서 가장 뜨거운 도구를 꼽으라면 단연 Claude Code예요. 터미널에서 자연어로 대화하면서 코드를 짜고, 디버깅하고, 리팩토링까지 해주는 이 도구는 출시되자마자 개발 워크플로우를 바꿔놓았거든요. 그런데 문제가 하나 있죠. 돈이 든다는 거예요. Anthropic API를 통해서 사용하려면 토큰당 과금이 되고, 코드 한 번 시킬 때마다 입력/출력 토큰이 어마어마하게 쌓이니까요. 진지하게 쓰면 한 달에 수십만 원이 나가는 일도 흔합니다.

이런 와중에 GitHub에 등장한 게 바로 Alishahryar1/free-claude-code라는 프로젝트예요. 이름부터 도발적이죠? "공짜로 Claude Code를 쓰자"라니까요. 핵심 아이디어는 의외로 단순합니다. Claude Code가 Anthropic 서버로 보내는 API 요청을, 중간에서 가로채서 NVIDIA NIM, OpenRouter, DeepSeek, LM Studio, llama.cpp 같은 다른 무료(또는 매우 저렴한) 모델 서비스로 돌려버리는 거예요. Claude Code 입장에서는 자기가 평소처럼 Anthropic이랑 통신하고 있다고 믿고 있지만, 실제로는 전혀 다른 모델이 응답하고 있는 셈이죠.

이게 왜 중요할까요? 단순히 "공짜"라서가 아니에요. 이 프로젝트가 가능하다는 사실 자체가 AI 코딩 도구 생태계의 권력 구조에 대한 질문을 던지고 있기 때문이에요. 도구는 Anthropic이 만들었지만, 그 도구를 굴리는 두뇌는 누구든 될 수 있다는 거죠. 오늘은 이 프로젝트가 어떻게 작동하는지, 그리고 이게 우리 개발 생태계에 어떤 의미를 가지는지 차근차근 풀어볼게요.

어떻게 "공짜"가 가능한 거예요?

먼저 기술적인 작동 방식부터 살펴볼게요. 이 프로젝트의 핵심은 프록시(Proxy)라는 개념이에요. 프록시가 뭐냐면, 쉽게 말해서 중간에 끼어드는 대리인이에요. 우리가 회사에서 외부 인터넷에 접속할 때 회사 프록시 서버를 거치는 것처럼요. 클라이언트(Claude Code)는 자기가 진짜 서버(Anthropic)랑 직접 통신한다고 생각하지만, 실제로는 중간에 프록시가 모든 요청을 받아서 처리하는 거죠.

free-claude-code의 동작 흐름은 이래요.

1. 사용자가 환경변수 ANTHROPIC_BASE_URL을 로컬 프록시 주소(예: http://localhost:8000)로 설정해요.
2. Claude Code CLI는 평소처럼 Anthropic Messages API 형식으로 요청을 보내요.
3. 프록시 서버(server.py)가 이 요청을 받아서, Anthropic 포맷을 OpenAI 호환 포맷으로 변환해요.
4. 변환된 요청을 NVIDIA NIM이나 OpenRouter, DeepSeek 같은 백엔드로 전달해요.
5. 응답이 돌아오면 다시 Anthropic 포맷으로 역변환해서 Claude Code에 돌려줘요.

여기서 "포맷 변환"이 핵심인데요, Anthropic의 Messages API와 OpenAI의 Chat Completions API는 비슷해 보이지만 미묘하게 다른 게 많아요. 예를 들어 Anthropic은 system 메시지를 별도 필드로 받는데, OpenAI는 messages 배열의 첫 번째 항목으로 처리하죠. 또 도구 호출(tool use) 형식도 다르고, 멀티모달(이미지 입력) 처리 방식도 달라요. 이걸 매끄럽게 양방향 변환해주는 게 이 프로젝트의 진짜 기술적 깊이예요.

특히 흥미로운 기능 몇 가지를 짚어볼게요.

Thinking Token 지원

요즘 추론 모델(reasoning model)들은 답을 내기 전에 "생각하는" 과정을 따로 출력해요. DeepSeek-R1이나 QwQ 같은 모델은 <think>...</think> 태그 안에 추론 과정을 넣고, OpenAI 호환 API에서는 reasoning_content 필드로 따로 빼주는 경우도 있죠. 이걸 그대로 Claude Code에 넘기면 화면이 지저분해지거든요. free-claude-code는 이걸 파싱해서 Claude의 native thinking block 형식으로 변환해줘요. 즉, Claude가 자기 자신의 사고 과정을 보여주는 것처럼 자연스럽게 표시되는 거죠.

Heuristic Tool Parser

이게 진짜 영리한 부분이에요. Claude Code는 파일 읽기, 쓰기, bash 실행 같은 작업을 할 때 tool use(도구 호출) 메커니즘을 써요. 모델이 "이 파일을 읽어주세요"라고 구조화된 JSON을 반환하면, 클라이언트가 그걸 실행하고 결과를 다시 모델에 넘기는 식이죠. 그런데 GPT-4o나 Claude처럼 잘 훈련된 모델이 아닌, 오픈소스 모델들은 종종 도구 호출을 그냥 텍스트로 출력해버려요. "I'll use the Read tool to..." 이런 식으로요. 이러면 클라이언트가 인식을 못 하거든요. free-claude-code는 이런 텍스트 출력을 패턴 매칭으로 잡아내서 자동으로 구조화된 tool use 형식으로 변환해줘요. 일종의 후처리 마법인 셈이죠.

Smart Rate Limiting

무료 티어는 보통 분당 요청 수(RPM)에 제한이 있어요. NVIDIA NIM은 분당 40회 무료고요. 이걸 넘기면 429 에러가 나죠. 이 프로젝트는 rolling window 방식의 사전 throttle과 429 받으면 지수 백오프로 재시도하는 두 가지 메커니즘을 같이 써요. 쉽게 말하면, 한도를 넘기 전에 미리 속도를 늦추고, 그래도 막히면 잠깐 쉬었다가 다시 시도하는 거예요. 동시 실행 개수 제한도 옵션으로 걸 수 있고요.

Subagent Control

Claude Code에는 Task 도구라는 게 있어서, 메인 작업을 하다가 서브 에이전트를 띄워서 별도 작업을 시킬 수 있어요. 그런데 이게 백그라운드로 돌면 토큰을 폭발적으로 소비할 수 있거든요. free-claude-code는 Task 도구 호출을 가로채서 run_in_background=False를 강제해요. 즉, 서브 에이전트가 멋대로 돌아다니지 않도록 통제하는 거죠. 무료 티어를 보호하려는 실용적인 장치예요.

5개의 백엔드, 각각 뭐가 다른가요?

프록시는 5개의 백엔드를 지원하는데, 각각 성격이 달라요.

NVIDIA NIM: 분당 40회 무료. NVIDIA가 호스팅하는 추론 서비스로, Llama, Nemotron 등 다양한 모델을 골라 쓸 수 있어요. 무료 한도가 가장 매력적이죠.
OpenRouter: 수백 개 모델을 한 곳에서 쓸 수 있는 라우터. 일부 모델은 무료고, 유료 모델도 매우 저렴해요. 모델 선택의 자유도가 가장 높아요.
DeepSeek: 직접 API. DeepSeek-V3나 R1 같은 강력한 모델을 토큰당 매우 저렴하게 쓸 수 있어요. 코딩 성능도 준수하죠.
LM Studio: 완전 로컬이에요. 본인 컴퓨터(맥북 M 시리즈나 GPU 있는 PC)에서 모델을 직접 돌려요. 인터넷도 필요 없고, 데이터도 외부로 안 나가요.
llama.cpp: 역시 로컬이지만 더 가볍고 직접적인 방식. Anthropic 엔드포인트를 흉내내는 모드도 있어요.

특히 모델별 매핑이 가능한 게 강점이에요. Claude Code는 내부적으로 Opus, Sonnet, Haiku를 다르게 호출하는데(어려운 작업은 Opus, 가벼운 작업은 Haiku 식으로), 이걸 각각 다른 모델/프로바이더에 매핑할 수 있어요. 예를 들어 Opus 호출은 DeepSeek-R1로, Sonnet 호출은 NVIDIA NIM의 Llama 70B로, Haiku 호출은 로컬 LM Studio의 작은 모델로 나눠 보낼 수 있는 거죠. 이러면 비용과 성능을 정밀하게 조율할 수 있어요.

그래서 진짜 Claude만큼 잘 돼요?

자, 솔직해질 시간이에요. 결론부터 말하면, "아니요"입니다. 적어도 아직은요.

Claude Code가 그렇게 강력한 이유는 단순히 모델이 좋아서가 아니에요. Claude Sonnet/Opus가 tool use, 긴 컨텍스트 처리, 코드 편집 패치 형식 같은 것들에 매우 정밀하게 튜닝되어 있기 때문이에요. 동일한 프롬프트와 도구 정의를 줘도, 다른 모델은 종종 도구를 잘못 호출하거나, 파일 편집 형식을 어기거나, 컨텍스트가 길어지면 헤맵니다.

DeepSeek-V3나 Qwen2.5-Coder 같은 모델들이 코딩 벤치마크에서는 Claude에 근접한 점수를 내지만, "에이전트로서의 안정성"은 아직 차이가 커요. 멀티턴 대화에서 일관성을 유지하고, 수십 개의 도구 호출을 정확하게 연쇄적으로 실행하는 능력은 Claude의 진짜 무기거든요. heuristic tool parser가 그 간극을 메우려고 하는 거지만, 모든 케이스를 완벽하게 잡아낼 수는 없어요.

그래서 현실적으로 free-claude-code의 가치는 "Claude Code를 100% 대체한다"기보다는 다음과 같은 시나리오에서 빛나요.

학습/실험 목적: API 비용 걱정 없이 Claude Code의 워크플로우를 익히고 싶을 때
간단한 반복 작업: 보일러플레이트 생성, 문서 정리, 간단한 리팩토링처럼 모델 차이가 크게 안 나는 작업
프라이버시가 중요한 코드: 회사 코드를 외부 API에 보내기 곤란할 때 LM Studio로 완전 로컬 실행
오픈소스 모델 평가: 동일한 워크플로우에서 여러 모델을 갈아끼우며 성능 비교

비슷한 프로젝트들과 어떻게 다른가요?

사실 "AI 코딩 도구의 백엔드를 갈아끼우자"는 시도는 이번이 처음이 아니에요. 비슷한 결의 프로젝트가 몇 개 있어요.

LiteLLM: 가장 유명한 LLM 프록시. 100여 개 프로바이더를 OpenAI 호환 API로 통합해줘요. 다만 Anthropic 클라이언트를 OpenAI 백엔드에 붙이는 양방향 변환은 별도 설정이 필요하죠.
Aider: Claude Code와 비슷한 CLI 코딩 도구지만 처음부터 멀티 모델을 지원하도록 설계됐어요. OpenAI, Anthropic, 로컬 모델 다 됩니다. "굳이 Claude Code를 우회할 필요 없이 Aider를 쓰면 되지 않나?"라는 의견도 있죠.
Continue.dev: VSCode 확장 형태로, 역시 멀티 프로바이더 지원. 다만 에이전트적 자율성은 Claude Code보다 약해요.
Cline / Roo Code: VSCode 안에서 동작하는 자율 코딩 에이전트. 처음부터 OpenRouter, Anthropic, 로컬 모델 모두 지원해요.

free-claude-code의 차별점은 "Claude Code 자체를 그대로 쓰면서" 백엔드만 바꾼다는 데 있어요. Aider나 Cline은 별도 도구를 새로 익혀야 하지만, 이건 이미 Claude Code에 익숙한 사람이 환경변수 두 개만 바꾸면 끝나거든요. UX 연속성이 강점인 셈이죠.

윤리적/법적 회색지대도 짚고 가야 해요

이런 프로젝트는 항상 약관 위반 우려가 따라붙어요. Anthropic의 서비스 약관이 Claude Code 클라이언트를 다른 백엔드와 연결하는 걸 명시적으로 금지하는지는 명확하지 않지만, 클라이언트의 시스템 프롬프트나 프로토콜이 Anthropic의 자산이라는 해석도 가능하죠. 또한 NVIDIA NIM이나 OpenRouter의 무료 티어를 우회 용도로 대량 사용하는 게 그쪽 약관에는 어떻게 걸리는지도 따져봐야 하고요.

그리고 품질 책임도 애매해져요. 버그가 났을 때 Claude Code 탓인지, 프록시 탓인지, 백엔드 모델 탓인지 분리하기 어렵거든요. 회사 코드에 적용할 거면 이 점을 분명히 인지해야 해요.

한국 개발자에게 주는 시사점

자, 그러면 우리는 이걸 어떻게 받아들여야 할까요?

첫째, 개인 학습용으로는 굉장히 좋은 도구예요. 부트캠프나 사이드 프로젝트에서 Claude Code의 워크플로우를 체험해보고 싶지만 월 구독료가 부담스럽다면, NVIDIA NIM 무료 티어로 시작해보는 걸 추천해요. 환경변수 두 개 설정하고 프록시 서버 띄우면 끝이니까, 30분이면 셋업할 수 있어요.

둘째, 회사 코드에 적용할 때는 매우 신중해야 해요. 외부 API로 코드가 나가는 건 보안 정책 위반인 경우가 많고, 위에서 말한 약관 이슈도 있죠. 만약 회사가 "AI 코딩 도구를 도입하고 싶지만 코드를 외부로 보내긴 싫다"는 상황이라면, LM Studio + free-claude-code 조합이 한 가지 답이 될 수 있어요. 사내 GPU 서버에 Qwen2.5-Coder-32B 같은 모델을 올리고 프록시로 연결하면, 코드는 한 발자국도 회사 밖으로 안 나가면서 Claude Code 워크플로우를 그대로 쓸 수 있거든요.

셋째, 모델 평가 인프라로 활용해보세요. 신규 오픈소스 코딩 모델이 나올 때마다 "실제 에이전트 작업에서 얼마나 쓸 만한가"를 테스트하고 싶을 텐데, free-claude-code를 통하면 동일한 Claude Code 환경에서 모델만 바꿔가며 비교할 수 있어요. 본인만의 코딩 벤치마크 시나리오를 만들어서 돌려보면 좋은 인사이트가 나올 거예요.

학습 로드맵을 짜자면 이런 순서를 추천해요.

1. Claude Code 자체를 정식으로 한 달 정도 써보면서 "잘 돌아가는 기준"을 몸으로 익히기
2. free-claude-code를 NVIDIA NIM 백엔드로 띄워서 동일 작업 비교
3. LM Studio로 로컬 모델 띄워서 오프라인 환경 구축
4. 프록시 코드 자체를 읽어보면서 Anthropic ↔ OpenAI API 변환 메커니즘 이해
5. 본인의 워크플로우에 맞게 모델 매핑 커스터마이징

마무리: 이게 진짜 의미하는 것

free-claude-code 프로젝트의 진짜 메시지는 "공짜로 쓰자"가 아니라고 봐요. 오히려 "AI 코딩 도구의 가치 사슬에서 도구(UI/UX)와 모델(추론 엔진)이 분리되기 시작했다"는 신호로 읽혀요. 지금까지는 OpenAI든 Anthropic이든, "좋은 모델을 가진 회사가 좋은 도구도 만든다"는 공식이 통했죠. 그런데 이제 도구는 도구대로 진화하고, 모델은 모델대로 오픈소스 진영에서 빠르게 따라잡고 있어요. 이 둘을 마음대로 조합하는 시대가 오고 있는 거예요.

앞으로 1~2년 안에 이런 흐름이 더 가속화될 거라고 생각해요. Claude Code 같은 에이전트 도구의 "표준 프로토콜"이 사실상 오픈되면, 사용자는 "오늘은 코드 리뷰니까 DeepSeek-R1, 내일은 빠른 보일러플레이트니까 로컬 Qwen" 식으로 골라 쓰게 될 거예요. 모델 회사들의 해자(moat)는 점점 얕아지고, 도구의 UX와 통합 능력이 더 중요해지겠죠.

여러분은 어떻게 생각하세요? 지금 Claude Code(또는 다른 AI 코딩 도구)를 어떻게 쓰고 계신가요? 비용 부담 때문에 망설이고 있다면 이런 프록시 방식을 시도해볼 의향이 있으신지, 아니면 "공식 도구의 안정성과 품질이 그 비용을 정당화한다"고 보시는지 궁금해요. 그리고 만약 회사에서 도입한다면, 보안과 비용 사이의 균형을 어떻게 잡아야 할까요? 댓글로 여러분의 경험과 생각을 나눠주시면 좋겠어요.

🔗 출처: GitHub

이 글도 읽어보세요