LLM으로 내 커피 취향을 예측할 수 있을까? — 실험과 그 교훈

일상의 질문에서 시작된 실험

기술 블로그에서 가장 재미있는 글은 종종 거창한 프로젝트가 아니라 소소한 궁금증에서 출발한 실험입니다. "오늘 내가 어떤 커피를 마실지 LLM이 예측할 수 있을까?"라는 질문도 그런 종류입니다. 언뜻 보면 장난 같지만, 이 실험은 LLM의 능력과 한계, 그리고 "예측"이라는 개념 자체에 대해 꽤 흥미로운 통찰을 던져줍니다.

실험의 전제는 이렇습니다. 매일 커피를 마시는 사람의 커피 선택에는 어떤 패턴이 있을 것입니다. 날씨, 요일, 기분, 전날 마신 커피, 최근 수면 시간 등 다양한 요소가 영향을 미칠 수 있죠. 전통적인 머신러닝으로 이런 예측을 하려면 데이터를 구조화하고, 피처 엔지니어링을 하고, 모델을 학습시키는 과정이 필요합니다. 하지만 LLM에게는 그냥 자연어로 맥락을 설명하고 "내일 뭐 마실 것 같아?"라고 물어볼 수 있습니다.

실험 설계와 방법론

이 실험의 저자는 상당히 체계적인 접근을 취했습니다. 단순히 한두 번 물어보고 "맞았다/틀렸다"를 확인하는 것이 아니라, 여러 달에 걸친 커피 선택 기록을 바탕으로 LLM의 예측 정확도를 통계적으로 분석했습니다.

실험에서 사용된 입력 데이터는 날짜, 요일, 이전 며칠간 마신 커피 종류, 그리고 간단한 메모(특별한 이벤트가 있었는지 등)입니다. LLM에게 이 정보를 프롬프트로 제공하고, 다음 날 어떤 커피를 선택할지 예측하게 합니다. 그리고 실제 선택과 비교하는 것이죠.

여기서 재미있는 점은 기준선(baseline) 설정입니다. LLM의 예측이 "좋은 예측"인지 판단하려면 비교 대상이 필요합니다. 가장 단순한 기준선은 "항상 가장 자주 마시는 커피를 예측하는 것"입니다. 만약 누군가가 70%의 확률로 아메리카노를 마신다면, 무조건 아메리카노를 예측하는 것만으로도 70%의 정확도를 달성할 수 있습니다. LLM이 이 기준선을 넘지 못한다면 아무리 그럴듯한 응답을 내놓아도 실질적으로는 쓸모없는 예측인 것이죠.

결과에서 보이는 LLM의 특성

실험 결과는 LLM의 흥미로운 특성 몇 가지를 드러냅니다. LLM은 프롬프트에 제공된 최근 패턴에 강하게 영향을 받습니다. 최근 3일간 연속으로 같은 커피를 마셨다면, LLM은 다음 날도 같은 커피를 예측하는 경향이 있습니다. 이것은 일종의 "최신성 편향(recency bias)"으로, 인컨텍스트 학습의 특성에서 비롯됩니다.

또한 LLM은 예측에 대해 자신감 넘치는 설명을 붙여줍니다. "화요일에는 보통 라떼를 선호하시는 패턴이 있으므로"라거나 "연속 아메리카노 후에는 변화를 추구하실 가능성이 높으므로"라는 식입니다. 이 설명들은 매우 그럴듯하게 들리지만, 실제로 그런 패턴이 통계적으로 유의미한지는 별개의 문제입니다. 이것이 바로 LLM의 가장 위험한 특성 중 하나인 "그럴듯한 잘못된 확신(confident confabulation)"입니다.

이 실험에서 LLM의 예측 정확도는 단순 기준선 대비 약간 나은 수준이거나 비슷한 수준이었습니다. 즉, LLM이 복잡한 추론을 하는 것처럼 보여도, 실제 예측 성능은 "가장 자주 마시는 커피를 항상 찍는 것"과 크게 다르지 않았다는 뜻입니다.

이 실험이 주는 더 넓은 교훈

이 커피 실험은 작은 스케일이지만, 현재 업계에서 일어나고 있는 "LLM을 모든 곳에 적용하려는" 움직임에 대해 중요한 질문을 던집니다.

LLM이 정말 "이해"하고 있는 걸까, 아니면 패턴 매칭을 하고 있는 걸까? 커피 선택처럼 개인적이고 맥락 의존적인 결정에서 LLM이 보여주는 성능은, 이 모델들이 진정한 인과 추론을 하지 못한다는 점을 다시 한번 상기시켜줍니다. LLM은 "이 사람이 커피를 선택할 때 어떤 요인을 고려하는지"를 이해하는 것이 아니라, 텍스트에서 발견되는 통계적 패턴을 재현하고 있을 뿐입니다.

기준선과의 비교 없이는 성능 평가가 무의미합니다. 실무에서 LLM 기반 시스템을 도입할 때 "정확도 80%"라는 숫자만 보고 도입을 결정하면 안 됩니다. 단순 규칙이나 통계 기반 접근이 75%를 달성할 수 있다면, LLM의 추가적인 5%를 위해 그 비용과 복잡성을 감수할 가치가 있는지를 따져봐야 합니다.

설명 가능성의 환상에 주의해야 합니다. LLM이 예측과 함께 제공하는 근거 설명은 매우 설득력 있게 들립니다. 하지만 그 설명이 실제 예측 과정을 반영하는 것인지, 아니면 예측 결과에 맞춰 사후적으로 생성된 것인지는 구분할 수 없습니다. 이는 LLM을 의사결정 보조 도구로 사용할 때 특히 주의해야 할 지점입니다.

한국 개발자에게 주는 시사점

국내에서도 LLM을 다양한 서비스에 도입하려는 시도가 활발합니다. 추천 시스템, 고객 응대, 데이터 분석 등 많은 영역에서 "GPT를 붙이면 되지 않을까?"라는 접근을 하게 되죠. 이 커피 실험은 그런 접근을 할 때 반드시 물어야 할 질문들을 환기시켜줍니다.

LLM을 도입하기 전에 먼저 단순한 기준선을 세워보세요. 규칙 기반 시스템이나 간단한 통계 모델이 어느 정도의 성능을 내는지 확인하고, LLM이 그것을 유의미하게 넘어서는지를 검증해야 합니다. 그래야 LLM의 진짜 가치가 있는 곳에 투자할 수 있습니다.

또한 이 실험은 "개인 데이터 + LLM"이라는 조합의 가능성과 한계를 동시에 보여줍니다. 개인화된 AI 어시스턴트를 만들 때, 충분한 컨텍스트를 제공하면 LLM이 놀라운 통찰을 보여줄 수도 있지만, 동시에 그 통찰이 허상일 수도 있다는 점을 항상 염두에 두어야 합니다.