데이터 엔지니어라면 누구나 다뤄본 Parquet과 ORC. 하지만 이 포맷들은 10년 넘게 자리를 지키며 한계도 드러냈습니다. 새로운 인코딩 기법이나 압축 방식을 도입하려면 모든 리더(reader)가 동시에 업데이트되어야 해서, 사실상 혁신이 멈춰버리는 '포맷 고착화' 문제죠.
F3(Future File Format)는 이 문제를 정면으로 겨냥합니다. 핵심 아이디어는 디코더 로직 자체를 WebAssembly 모듈로 파일에 함께 담는 것. 즉, 파일이 '자기 자신을 읽는 방법'을 들고 다니기 때문에, 리더가 해당 인코딩을 몰라도 내장된 Wasm 디코더로 데이터를 해독할 수 있습니다. 덕분에 포맷 전체를 깨뜨리지 않고도 새로운 압축·인코딩을 자유롭게 실험하고 배포할 수 있게 됩니다.
Apache Arrow 진영의 연구진이 주도하며, 넓은 테이블과 머신러닝 임베딩처럼 기존 포맷이 약했던 워크로드까지 겨냥합니다. 아직 연구 단계지만, 데이터 레이크하우스를 다루는 분이라면 'Parquet 이후'를 미리 그려볼 좋은 신호탄입니다.