Hacker News 2026.04.05 205

구글의 벡터 양자화 기술, 이제 브라우저에서 바로 돌린다 — TurboQuant-WASM

벡터 양자화가 브라우저 안으로 들어왔어요

요즘 AI 모델을 다뤄본 분이라면 '양자화(quantization)'라는 단어를 한 번쯤 들어봤을 거예요. 거대한 모델을 작은 기기에서도 돌릴 수 있게 모델의 숫자 정밀도를 줄이는 기술인데요. 그런데 이 양자화 중에서도 벡터 양자화(vector quantization)라는 좀 더 고급 기법이 있어요. 이번에 소개할 TurboQuant-WASM은 구글이 만든 고속 벡터 양자화 라이브러리인 TurboQuant을 WebAssembly(WASM)로 포팅해서, 서버 없이 브라우저에서 바로 실행할 수 있게 만든 오픈소스 프로젝트예요.

이게 왜 의미가 있냐면, 보통 벡터 양자화 같은 무거운 수치 연산은 파이썬이나 C++로 서버에서 돌리는 게 일반적이거든요. 그런데 이걸 브라우저에서 할 수 있다는 건, 사용자의 데이터를 서버로 보내지 않고도 로컬에서 처리할 수 있다는 뜻이에요. 프라이버시도 지키고, 서버 비용도 아끼고, 레이턴시도 줄이는 일석삼조인 셈이죠.

벡터 양자화, 이게 뭐냐면

양자화라는 개념 자체가 좀 어렵게 느껴질 수 있는데, 쉽게 비유하면 이래요. 사진을 저장할 때 원본 그대로 저장하면 용량이 엄청나잖아요? 그래서 JPEG로 압축하면 눈으로 보기엔 거의 차이 없는데 용량은 확 줄어들죠. 양자화도 비슷한 개념이에요. AI 모델이 가진 수십억 개의 숫자(가중치)를 원래 32비트 소수점으로 저장하는 대신, 8비트나 4비트로 줄이는 거예요.

벡터 양자화는 여기서 한 단계 더 나가요. 숫자 하나하나를 개별적으로 줄이는 게 아니라, 여러 숫자를 묶어서 하나의 '대표 벡터'로 치환하는 방식이에요. 마치 색상 팔레트를 256색으로 줄이는 것처럼, 비슷한 벡터들을 그룹으로 묶어서 대표값으로 바꾸는 거죠. 이렇게 하면 개별 양자화보다 정보 손실을 더 줄이면서도 압축률은 높일 수 있어요.

구글의 TurboQuant은 이 과정을 SIMD 명령어 같은 하드웨어 최적화를 활용해서 엄청 빠르게 처리하는 라이브러리인데, TurboQuant-WASM은 이걸 Emscripten을 사용해 WebAssembly로 컴파일한 거예요.

기술적으로 어떻게 동작하나요

TurboQuant-WASM은 구글의 원본 TurboQuant C++ 코드를 WebAssembly로 컴파일한 것이에요. WASM이 뭐냐면, 브라우저에서 네이티브에 가까운 속도로 코드를 실행할 수 있게 해주는 바이너리 포맷이에요. JavaScript보다 훨씬 빠르면서도 브라우저라는 샌드박스 안에서 안전하게 동작하죠.

이 프로젝트가 지원하는 양자화 방식에는 스칼라 양자화(SQ)와 프로덕트 양자화(PQ) 등이 포함돼요. 스칼라 양자화는 각 차원을 독립적으로 양자화하는 비교적 단순한 방식이고, 프로덕트 양자화는 벡터를 여러 서브벡터로 나눠서 각각을 코드북으로 양자화하는 좀 더 정교한 방식이에요.

사용법도 꽤 심플해요. npm 패키지로 설치한 뒤 JavaScript나 TypeScript에서 임포트해서 바로 쓸 수 있거든요. 브라우저 환경뿐만 아니라 Node.js 환경에서도 동작하기 때문에 서버리스 함수나 엣지 런타임에서도 활용할 수 있어요.

업계 맥락: 브라우저 AI의 시대가 오고 있다

이 프로젝트는 더 큰 트렌드의 일부로 봐야 해요. 최근 몇 년간 브라우저에서 AI를 직접 돌리자는 움직임이 점점 강해지고 있거든요. 구글의 MediaPipe, 애플의 Core ML Web, 그리고 ONNX Runtime Web 같은 프로젝트들이 모두 같은 방향을 가리키고 있어요.

특히 벡터 검색(vector search) 분야에서 양자화는 핵심 기술이에요. RAG(Retrieval-Augmented Generation) 파이프라인에서 수백만 개의 벡터를 저장하고 검색할 때, 양자화 없이는 메모리가 감당이 안 되거든요. 서버 사이드에서는 Faiss, ScaNN 같은 라이브러리가 이미 널리 쓰이고 있는데, 브라우저에서 이런 수준의 양자화를 할 수 있게 되면 완전히 클라이언트 사이드에서 동작하는 벡터 검색 엔진을 만들 수 있게 돼요.

기존에도 Voy나 vectra 같은 브라우저용 벡터 검색 라이브러리가 있었지만, 고성능 양자화가 부족했어요. TurboQuant-WASM은 이 빈 자리를 정확히 채워주는 프로젝트라고 할 수 있죠.

한국 개발자에게 주는 시사점

실무에서 당장 활용할 수 있는 시나리오가 몇 가지 있어요. 첫째, 프라이버시가 중요한 AI 기능을 만들 때예요. 예를 들어 사내 문서 검색 기능을 만드는데 데이터를 외부 서버로 보내고 싶지 않다면, 브라우저에서 임베딩을 양자화하고 검색까지 처리하는 구조를 생각해볼 수 있어요.

둘째, 오프라인에서도 동작하는 AI 기능을 만들 때 유용해요. PWA(Progressive Web App)와 결합하면 네트워크 없이도 벡터 검색이 가능한 앱을 만들 수 있죠.

셋째, 서버 인프라 비용을 줄이고 싶은 스타트업이라면 주목할 만해요. 연산을 클라이언트로 오프로드하면 서버 비용을 상당히 아낄 수 있으니까요.

다만 아직 초기 프로젝트이기 때문에 프로덕션에 바로 적용하기보다는 프로토타이핑이나 사이드 프로젝트에서 먼저 시도해보는 걸 추천해요.