RTX 3090 한 장으로 27B 모델을 초당 207 토큰 – Lucebox Hub 프로젝트

로컬 LLM의 속도 한계를 다시 한 번

"로컬에서 LLM을 돌리는 건 재밌지만 느리다"는 건 오래된 고정관념이었어요. 성능 좋은 API 모델에 비해, 내 PC에서 돌리는 오픈 웨이트 모델은 답변이 한 글자씩 뚝뚝 나오는 느낌을 줄 때가 많죠. 그런데 Luce-Org라는 팀이 Lucebox Hub라는 프로젝트에서 RTX 3090 단일 GPU로 Qwen 3.5-27B 모델을 초당 207 토큰으로 돌리는 데 성공했다는 소식이 올라왔어요. 이 숫자, 얼핏 지나치기 쉽지만 꽤 충격적인 결과예요.

207 tok/s가 왜 대단한가

참고로 RTX 3090은 2020년에 나온, 지금 기준으로는 한 세대 전의 GPU예요. 24GB VRAM이라는 점 덕분에 LLM 커뮤니티에서 오래도록 사랑받고 있지만, 최신 H100이나 H200 같은 데이터센터 카드에 비하면 이론 성능이 훨씬 낮죠. 그런 카드에서 27B 규모 모델을 초당 200토큰 넘게 뽑아낸다는 건, 최적화 스택을 아주 영리하게 짜 맞췄다는 뜻이에요.

비교 감각을 드리자면, 일반적인 로컬 환경에서 27B급 모델을 4비트 양자화해서 llama.cpp로 돌리면 대략 30~60 tok/s 나와요. vLLM이나 ExLlamaV2 같은 최적화된 엔진을 쓰면 80~120 tok/s 정도가 일반적이죠. 207 tok/s는 그보다 2~3배 빠른 수치예요. 체감상 "답변이 흐르듯 나오는" 게 아니라 "순식간에 쏟아지는" 경험에 가까워요.

어떻게 그 속도가 나왔을까

Lucebox 팀이 공개한 내용을 종합하면, 크게 네 가지 기술 축이 있어요. 첫째는 적극적인 양자화. W4A16 또는 FP8 형태로 가중치를 압축해서 메모리 대역폭 병목을 줄이는 접근이에요. 최신 커널(Marlin, Machete 같은 FP8 매트멀 커널)을 활용하면 정확도 손실을 최소화하면서 상당한 속도 향상을 낼 수 있어요.

둘째는 투기적 디코딩(speculative decoding)이에요. 이게 뭐냐면, 작은 "드래프트 모델"이 먼저 여러 토큰을 빠르게 예측해두고, 큰 모델이 그 예측이 맞는지 한 번에 검증하는 기법이에요. 맞으면 여러 토큰을 단번에 받아들이고, 틀리면 그 지점부터 다시 생성해요. 질문 형태에 따라 2~3배 속도 향상이 나오는 대표적 트릭이죠.

셋째는 KV 캐시 최적화와 배치(batching). 여러 요청을 묶어서 동시에 처리하면 GPU 이용률이 급격히 올라가요. vLLM의 PagedAttention, SGLang의 RadixAttention 같은 기법이 대표적이에요. Lucebox도 이런 고도화된 스케줄링을 활용하는 것으로 추정돼요.

넷째는 커스텀 CUDA 커널이에요. 표준 PyTorch 연산을 그대로 쓰면 중간중간 비효율이 생기는데, 특정 연산(어텐션, 레이어놈, 활성화 함수)을 하나로 묶는 fused kernel을 쓰면 실행 시간이 확 줄어들어요. FlashAttention 같은 기법이 그 계열이에요.

업계 맥락: 로컬 추론 스택의 빠른 진화

로컬 LLM 생태계는 지난 2년 동안 엄청난 속도로 진화했어요. 2023년 초만 해도 llama.cpp의 CPU 추론이 화두였는데, 이후 ExLlamaV2가 4비트 GPU 추론을 대중화했고, vLLM이 서버급 배치 스케줄링을 가져왔어요. 최근엔 SGLang, TGI, TensorRT-LLM 등이 경쟁에 뛰어들면서, "같은 모델을 얼마나 빠르고 싸게 돌리는가"가 주요 전장이 됐죠.

Lucebox Hub 같은 프로젝트는 이런 최적화 기법들을 사용하기 쉬운 패키지로 묶어내는 방향의 시도예요. 개별 기법들을 다 익혀서 조합하기엔 학습 곡선이 높으니까, "미리 튜닝된 박스"를 제공하는 거죠. Ollama가 "로컬 LLM의 Docker"라면, Lucebox는 "로컬 LLM의 고성능 런타임"에 가까운 포지션을 노리는 것 같아요.

한국 개발자에게는

로컬 LLM을 실제 서비스에 쓰려던 팀에게는 반가운 소식이에요. API 비용을 절감하고 싶어서 27B~32B 모델을 로컬로 돌리려고 했는데, 속도가 안 나와서 고민이었던 분들이 많거든요. 207 tok/s 수준이면 실시간 챗봇은 물론이고, 문서 대량 처리, RAG 백엔드, 코드 리뷰 봇 같은 시나리오에서도 충분히 쓸 만한 속도예요.

개인 개발자라면 중고 RTX 3090 한두 장으로도 꽤 그럴듯한 로컬 LLM 서빙 환경을 꾸릴 수 있다는 의미이기도 해요. 사이드 프로젝트로 LLM 기반 서비스를 만들어보고 싶다면, 클라우드 GPU 대여료 부담 없이 자기 호스팅으로 실험해볼 수 있는 시대가 더 가까워진 거죠.

물론 한 가지 조심할 점은, 이런 "벤치마크 숫자"는 특정 조건(짧은 프롬프트, 단일 사용자, 짧은 출력)에서 최댓값을 찍은 경우가 많다는 거예요. 실제 서비스 트래픽에서는 프롬프트 길이, 동시 사용자 수, 긴 컨텍스트 비중에 따라 체감 속도가 크게 달라져요. 본인 워크로드를 재현해서 직접 벤치마크를 돌려보는 게 좋아요.