TECH 으로 돌아가기
TECH HACKER NEWS 오늘 6분 읽기 36 READS

엑셀 표에도 파운데이션 모델이? 구글이 공개한 TabFM 이야기

엑셀 표에도 파운데이션 모델이? 구글이 공개한 TabFM 이야기

표(테이블) 데이터에도 드디어 파운데이션 모델이 왔어요

ChatGPT 같은 언어 모델, 이미지를 그려주는 생성 모델은 이제 우리한테 꽤 익숙하죠. 이런 걸 파운데이션 모델(foundation model)이라고 부르는데요. 이게 뭐냐면, 어마어마한 양의 데이터로 딱 한 번 크게 학습시켜 두면, 그 뒤로는 처음 보는 문제가 와도 추가 학습 없이 곧잘 풀어내는 ‘만능 선수’ 같은 모델이에요.

그런데 좀 이상하죠. 정작 회사에서 우리가 제일 많이 만지는 데이터에는 이런 만능 모델이 없었거든요. 바로 표 데이터(tabular data)예요. 엑셀 시트나 데이터베이스 테이블처럼 행과 열로 반듯하게 정리된 데이터 말이에요. 고객 명단, 매출 기록, 센서 로그… 실무에서 굴러다니는 데이터의 대부분이 사실 이 모양이잖아요. 그런데도 여기선 여전히 XGBoost 같은 ‘트리 기반’ 알고리즘이 왕좌를 지키고 있었어요.

구글 리서치가 이 빈자리를 노리고 TabFM이라는 모델을 공개했어요. 표 데이터를 위한 ‘제로샷(zero-shot)’ 파운데이션 모델이라는 건데요.

제로샷이 뭐길래 대단한 걸까요

기존 방식을 먼저 볼게요. 여러분한테 ‘고객이 이탈할지 말지’ 예측하는 표가 있다고 쳐요. 지금까지는 그 표를 가지고 XGBoost 모델을 처음부터 학습시켜야 했어요. 데이터가 바뀌면? 또 학습. 새 프로젝트? 또 처음부터 학습. 매번 이 과정을 반복해야 했죠.

제로샷은 이 수고를 건너뛰자는 거예요. 이게 뭐냐면, 여러분 데이터로 따로 훈련을 시키지 않아도 모델이 바로 예측을 뱉어준다는 뜻이에요. TabFM은 이미 세상의 수많은 표를 미리 학습해 둔 상태라서, 새 표를 보여주면 “아 이런 패턴은 전에도 봤지” 하면서 답을 내놓는 거죠. 몇 개의 예시만 슬쩍 보여주면 더 잘 맞히는 ‘퓨샷(few-shot)’도 가능하고요. 마치 언어 모델한테 예시 두세 개 주고 “이런 식으로 답해줘” 하는 것과 똑같은 원리예요.

기술적으로는 트랜스포머(Transformer) 구조를 표에 맞게 손봤어요. 숫자 열, 범주형(카테고리) 열이 뒤섞인 제각각의 표를 하나의 모델이 소화할 수 있도록, 열의 의미와 값들 사이의 관계를 문맥(context)으로 읽어내게 만든 거예요.

XGBoost의 아성, 이번엔 흔들릴까요

사실 이 방향의 원조는 몇 년 전 나온 TabPFN이에요. 합성 데이터로 트랜스포머를 학습시켜서, 작은 표는 학습 없이도 순식간에 분류해내는 걸 보여줘서 다들 놀랐거든요. 다만 TabPFN은 다룰 수 있는 표의 크기나 종류에 한계가 있었어요. TabFM은 구글답게 이걸 훨씬 크고 다양하게 키운 버전이라고 보면 돼요.

여기서 짚어야 할 게, 그동안 표 데이터에서는 딥러닝이 계속 XGBoost나 LightGBM 같은 그래디언트 부스팅에 밀려왔다는 사실이에요. “이미지·텍스트는 딥러닝이 이겼지만 표만큼은 트리가 최고”라는 게 업계 정설이었죠. 파운데이션 모델 접근이 이 구도를 정말 바꿀 수 있을지가 이번 발표의 진짜 관전 포인트예요.

우리 실무엔 어떤 의미일까요

가장 와닿는 건 빠른 프로토타이핑이에요. 데이터가 몇백~몇천 건밖에 없어서 제대로 학습시키기 애매한 상황, 다들 겪어보셨죠. 이럴 때 TabFM 같은 모델로 일단 베이스라인을 빠르게 뽑아두고, 성능이 부족하면 그때 XGBoost를 정성껏 튜닝하는 식으로 일하는 흐름이 생길 수 있어요.

또 하나는 표 데이터도 이제 ‘사전학습된 모델을 가져다 쓰는’ 시대로 넘어갈 조짐이라는 점이에요. 우리가 이미지 분류할 때 ImageNet 사전학습 모델을 불러다 쓰듯이, 표 예측도 그렇게 될 수 있다는 거죠. 다만 아직은 실험적인 단계라, 금융이나 의료처럼 설명 가능성과 정확도가 중요한 곳에 바로 넣기엔 검증이 더 필요해요.

마무리

한 줄로 정리하면, “이미지·텍스트에 이어 이제 엑셀 표까지 ‘학습 없이 예측하는’ 파운데이션 모델의 영역으로 들어왔다”는 소식이에요.

여러분은 어떠세요? XGBoost를 정성껏 튜닝하는 손맛을 포기하고, 제로샷 모델에 표를 통째로 던지는 방식으로 갈아탈 수 있을까요? 아니면 표 데이터만큼은 여전히 트리 기반이 오래 살아남을까요?


🔗 출처: Hacker News

SOURCE · HACKER NEWS
원문 전체 보기 → https://research.google/blog/introducing-tabfm-a-zero-shot-f...
SHARE
처리 중...