TerminalBench 1위 찍은 오픈소스 코딩 에이전트 'Dirac' 들여다보기

작은 모델로도 상위권을 찍을 수 있다는 증명

요즘 AI 코딩 에이전트 분야가 정말 뜨겁잖아요. Claude Code, Cursor, Cline, Aider… 거의 매주 새로운 도구가 등장하는 느낌이에요. 그런 와중에 Dirac이라는 오픈소스 에이전트가 TerminalBench라는 벤치마크에서 Gemini 3 flash preview 모델 기준 1위를 차지했다는 결과가 공유됐어요. 작은 팀에서 만든 오픈소스 프로젝트가 거대 기업의 프로덕트들과 어깨를 견줄 만한 성과를 냈다는 점에서 한 번 들여다볼 가치가 있는 프로젝트입니다.

TerminalBench가 뭐길래

먼저 TerminalBench라는 벤치마크부터 짚고 넘어갈게요. 이게 뭐냐면, AI 에이전트가 실제 터미널 환경에서 얼마나 일을 잘 처리하는지를 측정하는 평가 도구예요. SWE-Bench가 GitHub 이슈와 PR을 풀어내는 능력을 보는 것이라면, TerminalBench는 "리눅스 박스 줄 테니 이런 상태로 만들어봐"라는 식의 태스크를 던지고 에이전트가 명령어를 조합해 목표를 달성하는지를 봐요. 파일 찾기, 컴파일 환경 세팅, 디버깅, 시스템 구성 같은 실무에 가까운 시나리오가 많이 들어있죠.

Dirac의 접근 방식

Dirac은 이름 그대로 양자역학의 Paul Dirac에서 따온 듯한데, 코드를 보면 비교적 단순하지만 잘 정제된 에이전트 루프 구조를 가지고 있어요. 핵심은 모델이 도구를 호출하고, 실행 결과를 보고, 다음 액션을 결정하는 ReAct 패턴인데, 이걸 어떻게 구현하느냐에서 성능이 갈리거든요.

특히 흥미로운 건 Gemini 3 flash preview처럼 빠르지만 비교적 작은 모델로 좋은 성과를 냈다는 점이에요. 큰 모델에 의존하지 않고도 프롬프트 엔지니어링과 도구 설계, 컨텍스트 관리만으로 상위권에 올라갈 수 있다는 걸 보여준 거죠. 이게 비용이 중요한 실무 환경에 시사점이 큽니다. Claude Sonnet이나 GPT-5 같은 상위 모델로 에이전트를 돌리면 토큰 비용이 만만치 않은데, 가벼운 모델로도 의미 있는 작업을 자동화할 수 있다면 적용 범위가 훨씬 넓어지거든요.

다른 코딩 에이전트와의 비교

현재 오픈소스 코딩 에이전트 시장은 OpenHands(구 OpenDevin), Aider, Cline, Continue 같은 프로젝트들이 각축을 벌이는 상황이에요. OpenHands는 가장 야심찬 프로젝트로 풀-에이전트 프레임워크를 표방하지만 무겁고 설정이 복잡하다는 평이 있어요. Aider는 Git 기반 워크플로우에 최적화돼 있고 단순함이 강점이지만 자율성은 제한적이고요. Cline은 VS Code 확장으로 인기가 많지만 IDE에 묶여있다는 한계가 있죠.

Dirac은 이 사이에서 "터미널 네이티브하고 단순한 코어"를 지향하는 것으로 보여요. 무거운 인프라 없이도 잘 돌아가고, 모델 교체가 쉽고, 코드를 읽고 수정해서 자기 워크플로우에 맞추기 좋은 사이즈의 프로젝트라는 점이 매력입니다.

한국 개발자에게 주는 시사점

코딩 에이전트는 이제 "써볼까 말까"가 아니라 "어떻게 잘 활용할까"의 단계로 넘어왔어요. Dirac 같은 오픈소스 프로젝트가 의미 있는 이유는, 블랙박스로 동작하는 상용 제품과 달리 내부 동작을 뜯어보고 우리 환경에 맞게 커스터마이징할 수 있다는 점이에요. 사내 코드베이스에 특화된 도구를 추가하거나, 보안 정책 때문에 외부 SaaS를 못 쓰는 환경에서 자체 호스팅하거나, 프롬프트와 룰을 우리 팀 컨벤션에 맞게 손볼 수 있죠.

특히 토큰 비용이 부담되는 스타트업이나 사이드 프로젝트에서는 작은 모델 기반 에이전트의 가능성이 매력적이에요. GitHub에서 코드를 받아 돌려보고 우리 팀의 반복 작업 중 어떤 걸 자동화할 수 있을지 실험해보는 것만으로도 충분히 학습이 됩니다.