데이터 사이언티스트의 역습: AI 시대에 오히려 더 중요해진 이유

"데이터 사이언티스트는 끝났다"고 했던 사람들에게

몇 년 전부터 "데이터 사이언티스트라는 직업은 사라질 것"이라는 이야기가 돌았어요. AutoML이 나오고, ChatGPT가 코드를 짜주고, 누구나 데이터 분석을 할 수 있는 도구가 쏟아지니까요. 그런데 오히려 지금, LLM(대규모 언어 모델) 시대가 되면서 데이터 사이언티스트의 핵심 역량이 다시 각광받고 있다는 이야기가 나오고 있어요.

Hamel Husain이라는 개발자가 자신의 블로그에 이 주제를 깊이 있게 다뤘는데요, 핵심 메시지는 이거예요. LLM 애플리케이션을 제대로 만들려면 결국 데이터 사이언티스트가 수년간 갈고닦아 온 스킬셋이 필수적이다라는 거죠.

LLM 앱 개발, 생각보다 "데이터" 문제가 많다

LLM을 활용한 서비스를 만들어본 분이라면 공감하실 텐데요, API 연결하고 프롬프트 날리는 건 금방이에요. 진짜 어려운 건 그 다음이거든요. 모델 응답의 품질을 측정하고, 어디서 실패하는지 분석하고, 그걸 체계적으로 개선하는 과정이요.

이게 뭐냐면, 전통적인 ML 파이프라인에서 데이터 사이언티스트가 해왔던 일과 본질적으로 똑같은 거예요. 데이터를 수집하고, 평가 기준을 세우고, 실험하고, 결과를 측정하고, 반복하는 루프. 이 과정을 "eval-driven development"라고 부르는데요, 말 그대로 평가(evaluation)를 중심에 놓고 개발하는 방식이에요. "이 프롬프트가 좋은 것 같다"라는 감이 아니라, 구체적인 수치로 "이 프롬프트가 이전 대비 정확도가 12% 올랐다"라고 증명할 수 있어야 한다는 거죠.

데이터 사이언티스트의 무기가 다시 빛나는 이유

데이터 사이언티스트들이 오랫동안 다져온 역량을 보면, LLM 시대에 딱 맞는 것들이 많아요.

첫 번째는 체계적인 실험 설계예요. A/B 테스트를 설계하고, 통계적으로 유의미한 결과를 판단하는 능력이요. LLM 프롬프트를 바꿨을 때 "정말 좋아진 건지, 아니면 우연인지"를 구분할 줄 아는 건 매우 중요한 능력이에요.

두 번째는 데이터 파이프라인 구축 능력이에요. RAG(검색 증강 생성) 시스템을 만든다고 하면, 결국 문서를 어떻게 청크로 나누고, 임베딩은 어떻게 하고, 검색 품질은 어떻게 평가할 것인지의 문제인데, 이게 전부 데이터 엔지니어링이거든요.

세 번째는 도메인 지식과 데이터를 연결하는 능력이에요. 모델이 할루시네이션(사실이 아닌 내용을 그럴듯하게 생성하는 현상)을 일으켰을 때, 이게 정말 틀린 건지 판단하려면 해당 분야에 대한 이해가 필요해요. 데이터 사이언티스트는 원래 도메인 전문가와 기술 사이의 다리 역할을 해왔기 때문에 이 부분에서 강점이 있어요.

소프트웨어 엔지니어 vs 데이터 사이언티스트, 역할의 변화

재미있는 건 기존에 "소프트웨어 엔지니어가 ML도 하면 되지"라는 흐름이 있었는데요, LLM 앱 개발에서는 오히려 그 반대 현상이 나타나고 있어요. 소프트웨어 엔지니어가 프롬프트 엔지니어링만으로 빠르게 프로토타입을 만들 수는 있지만, 그걸 프로덕션 수준으로 끌어올리려면 데이터 사이언스적 사고가 필요해지는 거죠.

물론 이건 둘 중 하나가 더 중요하다는 이야기가 아니에요. 오히려 두 역할의 경계가 흐려지고 있다는 게 정확한 표현일 거예요. LLM 시대의 개발자는 코드를 잘 짜는 것도 중요하지만, 데이터를 체계적으로 다루고 실험을 설계하는 능력까지 갖춰야 한다는 흐름이에요.