TECH 으로 돌아가기
TECH HACKER NEWS 오늘 2분 읽기 33 READS

부스팅 트리의 시대는 끝나는가? 구글이 공개한 표 데이터 파운데이션 모델 'TabFM'

이미지·텍스트에는 파운데이션 모델이 자리 잡았지만, 정작 현업에서 가장 많이 쓰는 표(tabular) 데이터는 여전히 XGBoost 같은 그래디언트 부스팅 트리가 지배해 왔습니다. 데이터셋마다 처음부터 다시 학습하고 튜닝해야 했기 때문이죠. 구글 리서치가 공개한 TabFM은 이 판을 흔듭니다. 핵심은 '제로샷'입니다. 대규모 표 데이터로 사전학습된 트랜스포머가, 새 데이터셋을 별도 학습 없이 문맥 안에 넣어주기만 하면(in-context learning) 바로 예측을 수행합니다. 컬럼 종류나 타입이 제각각인 이질적 데이터도 그대로 받아들입니다. 벤치마크에서는 오랜 시간 튜닝한 부스팅 트리에 견줄 만한 성능을, 그것도 튜닝 없이 즉시 냅니다. 실무 관점의 인사이트는 명확합니다. 앞으로 표 데이터 문제는 '모델을 새로 학습'하는 대신 'API 한 번 호출'로 프로토타입을 만드는 시대가 올 수 있습니다. 특히 데이터가 적거나 빠른 실험이 필요한 상황에서 강력합니다. 다만 초대형 데이터셋과 극한의 정밀도가 필요한 프로덕션에서는 여전히 전통 기법이 유효하니, 두 접근을 상황에 맞게 조합하는 안목이 중요해질 전망입니다.

SOURCE · HACKER NEWS
원문 전체 보기 → https://research.google/blog/introducing-tabfm-a-zero-shot-f...
SHARE
처리 중...