Gemma 4 QAT 공개: 양자화를 '훈련 중에' 미리 연습시켜 노트북·폰에서 LLM 돌리기

무슨 일이 있었냐면요

구글이 자사 오픈 모델인 Gemma 4의 QAT 버전을 내놨어요. QAT는 'Quantization-Aware Training'의 약자인데, 우리말로 풀면 '양자화를 미리 인지하고 훈련시킨' 모델이라는 뜻이거든요. 이름만 보면 어려워 보이는데, 핵심은 딱 하나예요. 무겁고 큰 LLM을 노트북이나 스마트폰처럼 작은 기기에서도 잘 돌아가게 만드는 것이에요.

요즘 로컬에서 LLM 돌리는 분들 많잖아요. 그런데 모델을 원본 그대로 받으면 메모리가 어마어마하게 들어요. 그래서 보통 '양자화(quantization)'라는 걸 해서 크기를 줄이는데, 이번에 구글이 "우리가 아예 훈련 단계에서부터 양자화를 고려해서 만들었으니, 줄여도 성능이 거의 안 떨어진다"고 들고 나온 거예요.

양자화가 뭐냐면요

비유를 하나 들게요. 원본 모델의 숫자(가중치)들은 보통 16비트나 32비트 실수로 저장돼요. 소수점 아래까지 아주 정밀하게요. 마치 "3.14159265"처럼 꼼꼼하게 적어두는 거죠. 그런데 이걸 다 저장하려니 용량이 너무 커요.

양자화는 이 정밀한 숫자를 4비트 정수(int4)처럼 거칠게 반올림해서 저장하는 기법이에요. "3.14159265"를 그냥 "3"으로 적어두는 느낌이죠. 용량은 4분의 1 이하로 확 줄어드는데, 문제는 너무 거칠게 반올림하면 모델이 멍청해진다는 거예요. 미묘한 차이를 표현하던 정밀함이 사라지니까요.

여기서 두 가지 길이 갈려요.

PTQ (Post-Training Quantization): 다 훈련시킨 다음에 나중에 반올림하는 방식. 간편하지만 성능 손실이 생겨요.
QAT (Quantization-Aware Training): 훈련하는 동안 "어차피 나중에 4비트로 거칠게 반올림될 거야"라고 미리 알려주고 그 상태에 적응시키는 방식이에요.

QAT의 핵심 아이디어는 모델이 거친 환경에 미리 적응하게 만드는 것이에요. 마치 시험을 흑백 프린트로 볼 거라는 걸 알고 미리 흑백으로 공부한 학생이, 컬러로만 공부한 학생보다 흑백 시험에서 덜 당황하는 것과 비슷해요. 훈련 중에 일부러 정밀도를 떨어뜨린 상태를 경험시키니까, 실제로 4비트로 압축해도 성능이 거의 그대로 유지되는 거죠.

그래서 뭐가 좋아지냐면

가장 체감되는 건 메모리예요. 원래 16비트로 16GB쯤 먹던 모델이 4비트 QAT를 거치면 4~5GB 수준으로 내려가요. 이 정도면 게이밍 노트북 한 대, 심지어 좀 좋은 스마트폰에서도 굴릴 수 있는 크기거든요. 클라우드에 API 요청 안 보내고 내 기기 안에서 완전히 로컬로 모델을 돌릴 수 있다는 게 핵심이에요. 프라이버시도 좋고, 네트워크 없어도 되고, 비용도 안 들죠.

그리고 단순히 작아지기만 한 게 아니라, QAT 덕분에 "작아졌는데도 똑똑함은 거의 안 줄어든" 상태라는 게 포인트예요. 그냥 막 압축한 모델은 답이 이상해지거나 환각이 늘어나는데, QAT 모델은 원본에 훨씬 가까운 품질을 유지해요.

업계 맥락에서 보면

사실 '작은 기기에서 LLM 돌리기'는 요즘 가장 뜨거운 흐름 중 하나예요. 메타의 Llama 계열도 4비트 양자화 버전이 활발하게 쓰이고, 커뮤니티에서는 llama.cpp나 GGUF 포맷, bitsandbytes 같은 도구로 PTQ 양자화를 많이 해왔거든요. 애플도 자체 온디바이스 모델을 밀고 있고요.

구글이 QAT를 직접 공식 배포한다는 건, "커뮤니티가 알아서 압축하다가 성능 깎이지 말고, 우리가 제대로 압축해서 줄게"라는 메시지예요. 외부에서 사후 양자화하는 것보다, 모델을 만든 쪽이 훈련 단계부터 양자화를 녹여내는 게 품질 면에서 훨씬 유리하니까요. 이건 온디바이스 AI 경쟁이 본격화됐다는 신호이기도 해요.

한국 개발자에게 주는 의미

실무에서 바로 와닿는 지점이 많아요. 사내 데이터를 외부 API로 보내기 꺼려지는 환경, 예를 들면 금융·의료·공공 쪽이라면 로컬에서 돌아가는 작고 똑똑한 모델이 정말 매력적이거든요. QAT 버전 Gemma 4를 받아서 사내 노트북이나 온프레미스 서버에서 돌리면, 데이터 유출 걱정 없이 요약·분류·검색 같은 작업을 처리할 수 있어요.

앱 개발자라면 더 흥미로워요. 사용자 폰 안에서 직접 도는 AI 기능을 넣으면 서버 비용도 0에 가깝고, 오프라인에서도 동작하니까요. 다만 QAT 모델이라도 기기 성능에 따라 속도 차이는 크니까, 실제 타깃 기기에서 토큰 생성 속도를 꼭 측정해보고 결정하는 걸 추천해요.