LLM한테 "원시인처럼 말해"라고 시키면 토큰을 아낄 수 있다고?

이게 대체 무슨 프로젝트인가요

"Talk like caveman"이라는 이름의 GitHub 프로젝트가 등장했어요. 이름만 보면 장난 같지만, 실제로 담고 있는 아이디어는 꽤 흥미로워요. 핵심은 이거예요: LLM(대규모 언어 모델)에게 응답을 원시인처럼 짧고 단순한 문장으로 하라고 지시하면, 토큰 사용량을 크게 줄일 수 있다는 거예요.

토큰이 뭐냐면, LLM이 텍스트를 처리하는 기본 단위예요. 대략 영어 기준으로 단어 하나가 1~2개의 토큰이라고 보면 돼요. OpenAI나 Anthropic 같은 API를 쓸 때 비용이 토큰 수에 비례해서 청구되거든요. 그러니까 같은 의미를 전달하면서 토큰 수를 줄일 수 있다면, 그건 곧 비용 절감이 되는 거죠.

어떻게 동작하는 건가요

이 프로젝트의 접근 방식은 생각보다 단순해요. 시스템 프롬프트에 "원시인처럼 말해(Talk like caveman)"라는 지시를 추가하는 거예요. 그러면 LLM이 불필요한 접속사, 관사, 수식어를 빼고 핵심만 전달하는 짧은 문장으로 응답하게 돼요.

예를 들어 일반적인 응답이 "The function you're looking for is called map, and it takes a callback function as its argument, which will be applied to each element of the array and returns a new array with the transformed values."라면, 원시인 모드에서는 "Use map. Take callback. Return new array." 같은 식이 되는 거예요. 의미는 거의 같은데 토큰 수는 확 줄어들죠.

프로젝트 제작자에 따르면, 이 방법으로 출력 토큰을 상당히 절약할 수 있다고 해요. 물론 응답의 품질이 떨어지는 건 아닌지가 핵심 질문인데, 코드 생성이나 기술적 질문 같은 경우에는 장황한 설명보다 핵심만 딱 전달하는 게 오히려 더 유용한 경우도 많거든요.

이게 진지한 건가요, 밈인가요

솔직히 반은 밈이고 반은 진지한 프로젝트라고 볼 수 있어요. "원시인처럼 말해"라는 프롬프트 자체는 웃기지만, 그 뒤에 있는 문제의식은 실제로 업계에서 많이 논의되고 있는 거거든요. LLM의 응답이 너무 장황하다는 건 많은 개발자들이 공감하는 불만이에요.

GPT-4나 Claude 같은 모델을 API로 사용해본 분들은 아실 텐데, 같은 질문을 해도 모델이 불필요하게 긴 답변을 내놓는 경우가 많아요. "Python에서 리스트를 뒤집는 방법"을 물어보면 reverse(), slicing, reversed() 함수까지 친절하게 설명해주면서 수백 토큰을 쓰는데, 개발자 입장에서는 list[::-1] 한 줄이면 충분한 경우가 대부분이잖아요.

이런 문제를 해결하려는 시도가 사실 여러 가지 있어요. OpenAI의 경우 max_tokens 파라미터로 출력 길이를 제한할 수 있고, 시스템 프롬프트에 "Be concise"를 추가하는 것도 흔한 방법이에요. 하지만 "원시인처럼 말해"는 이런 접근을 극단적으로, 그리고 재미있게 밀어붙인 사례라고 할 수 있어요.

토큰 비용 절감, 왜 중요한가요

LLM API 비용은 서비스 규모가 커질수록 급격하게 늘어나요. 예를 들어 GPT-4o의 경우 출력 토큰 100만 개당 약 15달러 수준인데, 하루에 수만 건의 요청을 처리하는 서비스라면 월 비용이 수천 달러를 훌쩍 넘길 수 있어요. 그러니까 출력 토큰을 30%만 줄여도 연간으로 보면 상당한 비용 절감이 되는 거죠.

물론 "원시인 프롬프트"를 프로덕션에 그대로 쓰는 건 좀 무리가 있어요. 하지만 핵심 아이디어, 즉 "LLM에게 간결하게 응답하도록 시스템 프롬프트를 설계하는 것"은 실무에서도 충분히 적용할 수 있어요. 실제로 많은 회사들이 프롬프트 엔지니어링을 통해 응답 길이를 최적화하고 있고, 이 프로젝트는 그 아이디어를 아주 직관적으로 보여주는 좋은 사례인 거예요.

한국 개발자에게 주는 시사점

한국어는 영어보다 토큰 효율이 떨어지는 언어예요. 같은 의미를 전달할 때 한국어가 영어보다 더 많은 토큰을 소비하는 경우가 많거든요. 그래서 한국어 기반 LLM 서비스를 운영할 때 비용 최적화가 더 절실한 상황이에요. 시스템 프롬프트에서 응답 형식을 구체적으로 제한하는 것(예: JSON 형태로만 응답, 3문장 이내로 응답 등)이 비용 절감에 직접적으로 도움이 돼요.

또한 이 프로젝트는 프롬프트 엔지니어링의 창의적인 가능성을 보여주기도 해요. 딱딱한 지시문보다 캐릭터를 부여하는 방식("원시인처럼", "5살에게 설명하듯이")이 모델의 행동을 더 효과적으로 바꿀 수 있다는 점은 프롬프트를 설계할 때 참고할 만해요.