
작은 모델로 큰 모델 이기는 법
요즘 LLM 에이전트 만들어보신 분들 많을 텐데, 한 번이라도 "왜 이렇게 자꾸 엉뚱한 도구를 호출하지", "왜 JSON 형식을 자꾸 깨먹지" 같은 답답함을 겪어보셨을 거예요. 특히 GPT-4나 Claude 같은 큰 모델은 잘 되는데, 8B 같은 작은 오픈소스 모델을 쓰면 정확도가 절반 수준으로 떨어지면서 "역시 작은 모델은 안 되는구나" 싶어지거든요.
그런데 최근 공개된 Forge라는 프레임워크가 이 통념을 정면으로 흔들고 있어요. 8B 모델을 그대로 두고 가드레일(guardrails)만 잘 씌웠더니 에이전트 작업 정확도가 53%에서 99%까지 올랐다는 거예요. 모델을 파인튜닝한 것도 아니고, 더 큰 모델로 바꾼 것도 아닌데 말이죠.
가드레일이 뭐길래
가드레일(guardrails) 이라는 단어부터 풀어볼게요. 자동차 도로 가장자리에 있는 그 가드레일 맞아요. 차가 도로를 벗어나려고 할 때 다시 제 길로 돌려보내는 장치죠. LLM에서도 똑같은 개념이에요. 모델이 이상한 출력을 내려고 하면 그걸 잡아서 "다시 해봐" 하고 돌려보내는 검증 레이어를 의미해요.
Forge가 한 일을 좀 더 구체적으로 보면, 에이전트가 도구를 호출할 때 그 출력이 정해진 스키마(schema, 데이터 구조 규격)에 맞는지, 호출 가능한 함수 이름인지, 인자(argument) 타입이 맞는지를 코드 레벨에서 검증해요. 만약 틀리면 그 자체로 에러를 띄우는 게 아니라, "이런 부분이 틀렸으니 다시 시도해봐"라는 피드백을 모델에 다시 넣어주는 방식이에요. 일종의 자동 재시도 루프인 셈이죠.
53% → 99%, 그 숫자의 의미
이 수치가 충격적인 이유는, 단순한 미세 조정이 아니라 거의 완벽한 수준의 동작을 보장한다는 점이에요. 보통 "정확도 90%"라고 하면 멋져 보이지만, 에이전트가 10개 작업 중 1개를 망친다는 뜻이거든요. 자동화 파이프라인에서 이건 사실상 못 쓰는 수준이에요. 그런데 99%면 거의 모든 케이스를 처리한다는 의미라서, 프로덕션에 갖다 붙일 수 있는 신뢰도가 나온 거죠.
더 중요한 건 8B 모델로 이걸 해냈다는 점이에요. 8B는 노트북에서도 돌릴 수 있을 만큼 작은 모델이에요. GPU 한 장에 충분히 올라가고, 추론 비용도 GPT-4 대비 수십 분의 1 수준이거든요. 그동안 "비용 줄이려면 작은 모델 써야 하는데, 작은 모델은 정확도가 안 나와서 결국 큰 모델 써야 한다"는 딜레마가 있었는데, Forge는 이 딜레마를 깨버린 거예요.
어떻게 동작하는지 좀 더 깊이
Forge의 핵심 아이디어는 "모델을 똑똑하게 만들지 말고, 모델 주변을 똑똑하게 만들자" 예요. 구체적으로는 이런 식으로 동작해요. 먼저 에이전트가 어떤 도구를 호출할 때, 그 호출이 유효한지 Python 코드로 사전 검증해요. JSON 파싱부터 시작해서, 필수 필드가 다 있는지, enum 값이 허용된 범위 안인지, 타입이 맞는지 등을 체크하죠.
만약 어디 하나라도 틀리면, Forge는 모델한테 정확히 어떤 부분이 왜 틀렸는지 설명하는 메시지를 만들어서 다시 보내요. 예를 들어 "temperature 필드에 문자열을 넣었는데 float가 필요해" 같은 식으로요. 모델은 이 피드백을 받고 다시 시도하고, 또 검증을 통과해야 다음 단계로 넘어가요.
이게 단순해 보이지만 실제로는 LLM의 약점을 정확히 보완해주는 구조예요. LLM은 통계적으로 그럴듯한 답을 내는 데는 강하지만, 엄격한 형식을 지키는 데는 약하거든요. 그 약점을 코드로 막아주고, 강점인 "피드백 보고 고치기"를 활용한 거죠.
비슷한 시도들과 비교하면
사실 가드레일 개념 자체는 새로운 게 아니에요. Guardrails AI, Instructor, Outlines 같은 라이브러리들이 이미 비슷한 접근을 해왔어요. OpenAI의 structured outputs도 같은 문제를 풀려고 만들어진 기능이고요. 다만 Forge가 차별점이 있다면, 에이전트 작업 전체 흐름에 적용 가능한 통합 프레임워크라는 점, 그리고 8B라는 작은 모델에서 극적인 효과를 정량적으로 보여줬다는 점이에요.
특히 LangChain이나 LlamaIndex 같은 큰 프레임워크들이 "이것저것 다 되는 만능 도구"를 지향한다면, Forge는 "정확도 끌어올리기"라는 한 가지에 집중한 가벼운 도구라는 차이가 있어요.
한국 개발자에게 주는 시사점
사내 데이터로 에이전트를 만들어 보고 싶은데 OpenAI API 비용이 부담스럽거나 데이터 유출 우려로 외부 API를 못 쓰는 회사들이 많거든요. 이런 경우 Llama 3 8B나 Qwen 같은 오픈소스 모델을 사내 GPU에서 돌리는 게 현실적인 선택인데, 정확도가 발목을 잡았어요. Forge 같은 접근법은 이 상황을 바꿔놓을 수 있어요.
당장 써볼 만한 케이스를 떠올려보면, 사내 검색 챗봇이나 ERP 자동화 봇 같은 거예요. 정해진 도구만 호출하면 되는 작업이라면 8B + 가드레일 조합이 충분히 프로덕션 품질을 낼 수 있거든요.
정리하며
LLM 시대의 진짜 경쟁력은 "더 큰 모델"이 아니라 "모델을 다루는 시스템 설계"에 있다는 걸 Forge가 다시 보여줬어요. 가드레일, 검증, 재시도 같은 기본기가 결국 비용과 품질을 동시에 잡는 열쇠가 되는 거죠.
여러분은 에이전트를 만들 때 가드레일을 어디까지 적용해보셨나요? 작은 모델로도 충분하다는 이번 결과가 본인 프로젝트에 어떤 영향을 줄 수 있을지 궁금해요.
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공