Hacker News 2026.04.23 108

DuckDB 1.5.2가 나왔어요 - 노트북에서도 돌아가는 분석용 SQL 엔진의 진화

데이터 분석의 지형이 조용히 바뀌고 있어요

DuckDB라는 이름, 데이터 분석 쪽에 계신 분들은 많이 들어보셨을 거예요. 한 마디로 표현하면 '분석용 SQLite'예요. SQLite가 작은 트랜잭션형 데이터를 앱 안에 품고 다니는 데 최적화됐다면, DuckDB는 큰 분석 쿼리를 로컬에서 빠르게 돌리는 데 특화된 오픈소스 데이터베이스예요. 서버도 필요 없고, 그냥 파이썬이나 R에 import 해서 쓰면 돼요. 최근 데이터 엔지니어링 업계에서 가장 뜨거운 프로젝트 중 하나이기도 해요.

이번에 1.5.2 마이너 버전이 나왔는데, 단순 버그픽스 릴리스라고 넘어가기엔 DuckDB가 걸어온 길이 꽤 의미심장해요. 2022년에 1.0도 안 되는 버전으로 주목받기 시작해서, 지금은 Motherduck 같은 상용 클라우드 서비스까지 붙어서 생태계가 폭발적으로 커지고 있거든요. 이 기회에 DuckDB가 왜 중요한지, 기존 데이터 분석 도구와 뭐가 다른지 정리해볼게요.

분석용 DB가 뭐길래 따로 필요하냐면요

데이터베이스는 크게 OLTP와 OLAP로 나뉘어요. OLTP는 Online Transaction Processing의 약자로, 은행 송금이나 쇼핑몰 주문 처리처럼 '작은 데이터를 자주 읽고 쓰는' 용도예요. MySQL이나 PostgreSQL, SQLite가 여기 속해요. 반면 OLAP는 Online Analytical Processing으로, '큰 데이터를 모아서 집계하고 분석하는' 용도예요. 매출 통계, 사용자 행동 분석, 로그 분석 같은 거요.

OLAP용 DB는 저장 방식부터 달라요. 행 기반이 아니라 열 기반(columnar) 으로 저장해서, 예를 들어 '평균 매출'을 구할 때 전체 행을 다 읽지 않고 매출 컬럼만 쭉 읽어서 처리할 수 있어요. 또 벡터화 실행이라는 기법을 써서 CPU의 SIMD 명령어로 한 번에 여러 값을 병렬 처리해요. 이런 게 쌓이면 같은 쿼리가 수십 배에서 수백 배 빨라져요.

지금까지 OLAP는 Snowflake, BigQuery, Redshift 같은 클라우드 서비스나 ClickHouse 같은 서버형 DB가 주류였어요. 그런데 문제는 '노트북에서 판다스(pandas)로 몇 기가짜리 CSV 돌리는' 일상적인 분석 작업에는 이게 다 과하거나 불편하다는 거였어요. DuckDB는 바로 이 틈새를 정확하게 파고들었어요.

DuckDB의 진짜 강점은 뭔가요

첫째, 설치 장벽이 거의 없어요. pip install duckdb 한 줄이면 끝이에요. 서버 띄울 필요도, 설정 파일 만들 필요도 없어요. 파이썬 쉘에서 import duckdb; duckdb.sql('SELECT * FROM read_csv("data.csv") WHERE amount > 1000') 이런 식으로 바로 쿼리를 던질 수 있어요. 파케이(Parquet), CSV, JSON, 엑셀 파일을 마치 테이블처럼 읽어서 SQL을 돌릴 수 있고, 판다스 데이터프레임도 그대로 쿼리 대상이 돼요.

둘째, 속도가 진짜 빨라요. 몇 기가 수준의 데이터셋이면 판다스보다 훨씬 빠르고, 심지어 수십 기가 단위도 메모리 효율적으로 처리해요. 최근 벤치마크들을 보면 일부 분석 쿼리에서 단일 노드 Spark보다도 빠른 경우가 있어요. 이게 가능한 이유는 앞에서 말한 열 기반 저장 + 벡터화 실행 + 최신 쿼리 옵티마이저가 잘 결합돼 있기 때문이에요.

셋째, 어디서나 돌아가요. 리눅스, 맥, 윈도우는 물론이고, WebAssembly로 컴파일해서 브라우저 안에서도 돌릴 수 있어요. 실제로 관측 가능성(observability) 도구나 데이터 탐색 도구들이 DuckDB-Wasm을 써서 사용자 브라우저에서 바로 데이터 분석을 돌리는 아키텍처를 쓰고 있어요. 서버 부하를 확 줄일 수 있는 접근이에요.

1.5.x 시리즈에서 눈여겨볼 점

1.x 시리즈로 들어오면서 DuckDB는 안정성과 파일 포맷 호환성에 엄청나게 신경 쓰고 있어요. 1.0 이전까지는 버전 올릴 때마다 데이터 파일 포맷이 바뀌어서 재임포트해야 하는 경우가 많았는데, 1.x부터는 하위 호환성을 보장해요. 1.5.2는 쿼리 플래너 개선, 윈도우 함수 성능 향상, 외부 카탈로그 연동(Iceberg, Delta Lake) 안정화 같은 부분에 손이 갔어요. 특히 Iceberg 테이블 읽기 같은 기능은 이제 데이터 레이크 생태계와 DuckDB를 연결하는 핵심 고리가 되고 있어요.

업계 맥락

DuckDB의 성공은 '거대 클라우드 데이터웨어하우스 → 로컬/엣지 분석'이라는 흐름의 상징이에요. Polars라는 러스트 기반 데이터프레임 라이브러리도 비슷한 맥락에서 성장 중이고요. 둘을 비교하면 Polars는 판다스 대체에 가깝고, DuckDB는 SQL을 선호하는 사용자에게 더 맞아요. 실무에선 둘을 섞어 쓰는 경우도 많아요.

한편 Motherduck는 DuckDB를 기반으로 한 '하이브리드 분석 플랫폼'을 내놓고 있어요. 노트북 로컬과 클라우드가 투명하게 연결돼서 쿼리가 자동으로 분산 실행돼요. 이게 꽤 흥미로운 방향이에요. Snowflake 같은 풀 클라우드도, 순수 로컬도 아닌 그 중간 지점인 거죠.

한국 개발자에게

데이터 분석, 백엔드, 관측성 도구 같은 분야라면 DuckDB는 지금 당장 써봐도 좋아요. 판다스로 느려서 답답했던 작업이 훨씬 빨라질 거예요. ETL 파이프라인에서 중간 변환 단계에 DuckDB를 끼워넣으면 Airflow 태스크 실행 시간이 크게 줄어드는 경우가 많아요. BI 대시보드 백엔드나 로그 분석 툴에도 잘 맞고요.