AI 평가(eval) 스타트업이 줄줄이 망하는 진짜 이유

LLM 평가 도구를 파는 'eval 스타트업'이 잘 안 되는 이유를 짚은 글입니다. 핵심은 평가가 일반화된 제품이 되기 어렵다는 점입니다. 좋은 평가는 그 회사의 구체적인 제품, 데이터, 사용자 맥락에 깊이 묶여 있어서 외부 도구로 표준화하기 힘듭니다. 결국 진지한 AI 팀일수록 평가를 자체 구축하려 하고, 이는 곧 그들의 핵심 경쟁력이라 외주로 넘기길 꺼립니다. 또 모델과 요구사항이 빠르게 바뀌어 한번 만든 평가 기준이 금세 낡고, 정작 비용을 지불할 의향은 낮습니다. 평가 자체는 매출이 아니라 비용 항목으로 인식되기 때문입니다. 저자는 진짜 기회는 '평가 도구'를 파는 게 아니라, 평가를 내장해 제품 품질을 끌어올리는 워크플로우에 있다고 봅니다. 한국 AI 팀에도 시사점이 큽니다. 평가를 별도 제품이 아닌 개발 파이프라인의 일부로 녹여내는 전략이 더 현실적입니다.

AI 평가(eval) 스타트업이 줄줄이 망하는 진짜 이유

이어서 읽을 만한, 세 편.

로그인

추가 정보 입력

회원가입

수강 신청

비밀번호 찾기