[심층분석] AI 코딩 에이전트의 '기억력 문제'를 해결하다 — GSD-2의 컨텍스트 엔지니어링 접근법

왜 지금 이 프로젝트가 주목받는가

AI 코딩 에이전트 시대가 본격화되면서, 개발자들은 한 가지 공통된 좌절을 경험하고 있다. 에이전트가 오래 작업할수록 맥락을 잃고 품질이 떨어진다는 것이다. Claude Code, Cursor, Copilot 등 어떤 도구를 쓰든, 장시간 세션에서 컨텍스트 윈도우가 오염되면 에이전트는 이전 지시를 잊고, 같은 실수를 반복하며, 프로젝트의 큰 그림을 놓치게 된다.

GSD-2(Get Shit Done v2)는 바로 이 문제에 정면으로 도전하는 오픈소스 프로젝트다. GitHub에서 328개의 스타를 받으며 주목받고 있는 이 도구는, 단순한 프롬프트 프레임워크를 넘어 에이전트 세션 자체를 프로그래밍적으로 제어하는 독립 CLI 애플리케이션으로 진화했다.

기술 분석: 프롬프트 프레임워크에서 에이전트 애플리케이션으로

v1의 한계와 v2의 근본적 차이

GSD v1은 ~/.claude/commands/에 설치되는 마크다운 프롬프트 모음이었다. 슬래시 커맨드를 통해 LLM에 지시를 주입하는 방식으로, 본질적으로 LLM이 지시를 잘 따르기를 '희망'하는 구조였다. 이 접근법의 한계는 명확했다:

컨텍스트 관리 불가: 장시간 세션에서 불필요한 정보가 쌓여 품질 저하
자동화의 허상: "자동 모드"가 실제로는 LLM이 자기 자신을 루프로 호출하는 것에 불과
크래시 복구 없음: 세션이 중간에 죽으면 처음부터 다시 시작
관측성 부재: 비용 추적, 진행 대시보드, 무한루프 감지 없음

GSD v2는 Pi SDK 위에 구축된 독립 TypeScript CLI 애플리케이션이다. 이것이 핵심적인 아키텍처 전환이다. LLM에게 "이렇게 해줘"라고 부탁하는 대신, 에이전트 하네스 자체에 대한 프로그래밍적 접근권을 가진다.

핵심 아키텍처: 상태 머신 기반 실행

GSD v2의 가장 중요한 설계 결정은 태스크 단위로 세션을 초기화하는 것이다. 각 태스크마다 깨끗한 컨텍스트 윈도우를 제공하고, .gsd/ 디렉토리의 파일을 읽어 현재 상태를 파악하는 상태 머신(State Machine) 방식으로 동작한다.

태스크 시작 → 필요한 파일만 주입 → 실행 → 결과 기록 → 컨텍스트 클리어 → 다음 태스크

이 접근법이 해결하는 문제는 컨텍스트 엔지니어링이라 불리는 영역이다. 단순히 프롬프트를 잘 작성하는 것이 아니라, 에이전트가 각 시점에서 정확히 필요한 정보만 가지도록 컨텍스트 윈도우를 능동적으로 관리하는 것이다.

Spec-Driven Development

GSD v2는 스펙 기반 개발 방식을 채택한다. 마일스톤과 태스크를 사전에 정의하고, 에이전트가 이를 순차적으로 자동 실행한다. Git 브랜치 관리, 비용·토큰 추적, 무한루프 감지, 크래시 복구(락 파일 + 세션 포렌식)까지 모두 프로그래밍적으로 처리된다.

"한 번의 명령으로 떠나고, 돌아오면 깨끗한 git 히스토리와 함께 빌드된 프로젝트가 있다" — 이것이 GSD v2가 약속하는 워크플로우다.

업계 맥락: AI 에이전트 오케스트레이션 경쟁

현재 AI 코딩 에이전트 생태계는 크게 세 가지 레이어로 나뉜다:

| 레이어 | 대표 도구 | GSD v2의 위치 |
|--------|----------|---------------|
| 기반 에이전트 | Claude Code, Codex CLI | Pi SDK를 통해 활용 |
| 오케스트레이션 | GSD v2, Claude Agent SDK | 이 레이어에서 경쟁 |
| IDE 통합 | Cursor, Windsurf | 다른 접근 방식 |

GSD v2는 Anthropic의 Claude Agent SDK, OpenAI의 Codex CLI 등과 같은 에이전트 오케스트레이션 레이어에 위치한다. 차별점은 "장시간 자율 작업"에 특화된 설계다. 대부분의 도구가 단일 태스크 수준의 자동화에 집중하는 반면, GSD v2는 전체 마일스톤 단위의 자율 실행을 목표로 한다.

특히 "컨텍스트 엔지니어링"이라는 개념이 2025년 하반기부터 업계의 핵심 화두로 떠오른 점을 고려하면, GSD v2는 이 트렌드의 실용적 구현체라 할 수 있다.

한국 개발자에게 미치는 영향

실무 활용 시나리오

대규모 리팩토링: 마일스톤을 정의하고 GSD v2에 맡기면, 수십 개 파일에 걸친 리팩토링을 자율적으로 수행
MVP 빠른 구축: 스펙 문서만 잘 작성하면 프로토타입 수준의 프로젝트를 하룻밤 사이에 생성
반복적 마이그레이션 작업: API 버전 업그레이드, 프레임워크 전환 같은 기계적이지만 방대한 작업에 적합

주의할 점

npm install -g gsd-pi로 설치 가능하지만, Pi SDK 기반이므로 해당 SDK의 제약사항과 비용 구조를 사전에 파악해야 한다. 또한 아직 82개의 커밋, 36개의 포크 수준인 초기 프로젝트이므로, 프로덕션 워크플로우에 바로 도입하기보다는 사이드 프로젝트에서 먼저 검증하는 것이 현명하다.

핵심 요약

GSD v2는 AI 코딩 에이전트의 가장 큰 병목인 장시간 세션에서의 컨텍스트 오염 문제를 아키텍처 레벨에서 해결하려는 시도다. 프롬프트 엔지니어링의 한계를 인정하고, 에이전트 세션 자체를 프로그래밍적으로 제어하는 방향으로의 전환은 업계 전체가 향하고 있는 방향이기도 하다.

토론 질문: 여러분은 AI 코딩 에이전트에게 "하룻밤 동안 알아서 코드를 짜라"고 맡길 수 있을 만큼 신뢰하시나요? 자율 에이전트의 결과물을 검증하는 데 드는 비용이, 직접 작성하는 것보다 정말 효율적일까요?

🔗 출처: GitHub

이 글도 읽어보세요