8B 모델인데 1B만 켠다고? Liquid AI의 새 MoE 모델 뜯어보기

“8B인데 1B만 쓴다”는 게 대체 무슨 말이냐면요

Liquid AI라는 회사가 새 언어 모델을 하나 공개했어요. 이름이 LFM2-5-8B-A1B인데, 무슨 암호 같죠? 여기서 진짜 중요한 건 뒤에 붙은 “8B-A1B”라는 표시예요. 전체 파라미터(모델이 학습하면서 쌓아둔 지식 덩어리라고 생각하면 돼요)는 80억 개인데, 실제로 답 하나를 만들 때 켜지는 건 그중 10억 개뿐이라는 뜻이거든요.

이게 바로 요즘 자주 보이는 MoE(Mixture of Experts, 우리말로 “전문가 혼합”) 구조예요. 쉽게 비유해 볼게요. 큰 병원에 의사가 80명 있다고 쳐요. 그런데 환자가 한 명 올 때마다 80명이 전부 달려들면 너무 낭비잖아요. 대신 “이 환자는 정형외과네” 하고 관련 있는 의사 한두 명만 부르는 게 효율적이죠. MoE도 똑같아요. 들어온 단어(토큰) 하나하나마다 “이건 누가 제일 잘 처리하지?”를 판단해서 필요한 전문가만 깨우는 거예요. 그래서 지식은 80억짜리 큰 모델만큼 품고 있으면서, 실제 계산 비용과 속도는 10억짜리 작은 모델 수준으로 확 낮출 수 있는 거죠.

38조 토큰이라는 숫자의 무게감

이 모델이 학습에 쓴 데이터가 무려 38T, 그러니까 38조 개의 토큰이에요. 토큰은 대충 “단어 조각 하나” 정도로 보면 되는데, 38조 개라니 감이 잘 안 오죠? 보통 이 정도 데이터 양은 수백억～수천억 파라미터급의 거대 모델을 만들 때나 들이붓는 규모예요. 그걸 10억 개만 켜지는 작고 가벼운 모델에 쏟아부었다는 게 포인트예요. 작은 그릇에 엄청나게 많은 경험을 압축해서 눌러 담은 셈이죠. 같은 크기여도 데이터를 많이 먹일수록 더 똑똑해지는 경향이 있는데, Liquid AI는 “모델 크기를 키우는 대신 학습량을 극단적으로 늘리는” 쪽을 택한 거예요.

왜 굳이 작은 모델에 이렇게 공을 들일까

Liquid AI는 원래부터 “엣지(edge) AI”, 즉 클라우드 서버가 아니라 우리 손에 있는 휴대폰이나 노트북 위에서 직접 돌아가는 AI에 집중하는 회사예요. 이런 환경에선 메모리도 빠듯하고 배터리도 아껴야 하니까, 모델이 작고 빨라야 하거든요. MoE는 이 목표랑 딱 맞아떨어져요. 전체 지식(80억)은 기기 메모리에 올려두되, 실제 추론할 땐 10억만 돌리니까 발열이나 전력 소모를 크게 줄일 수 있어요. “스마트폰에서 GPT 비슷한 걸 인터넷 없이 돌린다”는 그림에 한 발짝 더 다가간 거죠.

업계에서는 지금 무슨 일이

사실 MoE 자체는 Liquid AI만의 기술은 아니에요. 프랑스의 Mistral이 Mixtral로 MoE를 대중화시켰고, 중국의 DeepSeek과 알리바바 Qwen도 MoE 모델을 활발하게 내놓고 있어요. 다만 대부분은 “성능을 끌어올리려고 모델을 더 키우는” 방향으로 MoE를 써왔거든요. Liquid AI는 거꾸로 “작게, 더 작게, 기기 안으로” 방향으로 MoE를 활용한다는 게 차별점이에요. 애플의 온디바이스 모델이나 구글의 Gemini Nano, 마이크로소프트의 Phi 시리즈처럼 “작지만 똑똑한 모델” 경쟁이 점점 뜨거워지는 흐름 속에 이번 발표가 놓여 있다고 보면 돼요.

우리에게 주는 시사점

한국 개발자 입장에서 이게 왜 중요하냐면요. 첫째는 비용이에요. 작은 모델을 직접 기기나 자체 서버에서 돌릴 수 있으면 API 호출 비용을 확 아낄 수 있죠. 둘째는 프라이버시예요. 데이터를 외부 서버로 안 보내고 기기 안에서 처리하면, 민감한 정보를 다루는 서비스(의료, 금융, 사내 문서 같은)에서 부담이 훨씬 줄어들어요. 챗봇, 문서 요약, 코드 자동완성 같은 기능을 만들 때 “굳이 거대 모델 API를 써야 할까? 가벼운 온디바이스 모델로 충분하지 않을까?”를 진지하게 고민해 볼 시점이 온 거예요. 이런 흐름을 미리 익혀두면, 가볍고 저렴한 AI 기능을 설계할 때 분명 무기가 됩니다.