[심층분석] Qwen3.6-35B-A3B 공개, 또 한 번 판을 흔드는 알리바바의 오픈소스 AI

드디어 등장한 Qwen3.6, 이번엔 뭐가 다를까요?

요즘 오픈소스 AI 모델 시장은 정말 하루가 다르게 움직이고 있어요. 중국 알리바바의 Qwen 팀에서 최신 모델인 Qwen3.6-35B-A3B를 공개했거든요. 이름만 봐도 알 수 있듯이, Qwen 3.5 시리즈의 후속 버전이에요. 그런데 숫자 뒤에 붙은 A3B라는 표기가 낯설죠? 이게 바로 이 모델의 핵심이에요.

먼저 간단히 풀어드리면, 35B는 전체 파라미터가 350억 개라는 뜻이고, A3B는 실제로 추론할 때 활성화되는(Active) 파라미터가 30억 개라는 의미예요. "어? 왜 350억 개를 다 안 쓰고 30억 개만 써요?" 하실 수 있는데, 바로 이 지점이 요즘 AI 업계에서 뜨거운 키워드인 MoE(Mixture of Experts, 전문가 혼합) 아키텍처의 핵심이에요.

쉽게 비유하자면 이런 거예요. 회사에 350명의 전문가가 있다고 칩시다. 그런데 모든 질문마다 350명이 다 회의에 들어오면 시간도 오래 걸리고 비효율적이잖아요? 그래서 질문 종류에 따라 딱 3명만 골라서 답변을 만드는 거예요. 결과물의 품질은 큰 모델 수준이지만, 속도와 비용은 작은 모델 수준으로 나오는 거죠. 이게 요즘 오픈소스 LLM의 대세인 MoE 방식이에요.

Qwen 시리즈가 걸어온 길

알리바바의 Qwen 시리즈를 처음 들어보는 분들을 위해 잠깐 배경을 설명드릴게요. Qwen은 알리바바 클라우드의 DAMO Academy에서 만드는 오픈소스 LLM 패밀리예요. 2023년에 처음 Qwen 1이 나왔을 때만 해도 "또 하나의 중국산 모델인가" 정도의 반응이었는데요.

그런데 Qwen 2, Qwen 2.5로 버전이 올라가면서 판도가 완전히 바뀌었어요. 특히 Qwen 2.5-Coder는 코딩 특화 모델로서 GPT-4 수준의 성능을 로컬에서 돌릴 수 있게 해줘서 개발자들 사이에서 열광적인 지지를 받았거든요. 그리고 Qwen 3 시리즈에 들어와서는 아예 OpenAI, Anthropic 같은 빅테크의 클로즈드 모델과 견주는 성능을 보이기 시작했어요.

Qwen 3.5에서는 하이브리드 추론(thinking/non-thinking) 모드가 추가되면서 또 한 번 주목을 받았어요. 이게 뭐냐면, 간단한 질문은 바로 답하고 복잡한 질문은 OpenAI의 o1처럼 내부적으로 생각하는 단계를 거쳐서 답하는 기능이에요. 사용자가 enable_thinking=True 같은 플래그로 켜고 끌 수 있어서 상황에 맞게 쓸 수 있죠.

이번에 나온 Qwen3.6-35B-A3B는 그 연장선에서 MoE 방식으로 효율성을 극한까지 끌어올린 버전이라고 보시면 돼요.

A3B 아키텍처, 진짜 핵심은 뭘까요?

자, 이제 기술적인 부분을 조금 더 깊이 들어가볼게요. MoE 아키텍처가 왜 그렇게 주목받는지 이해하려면, 기존의 Dense 모델과 비교해야 해요.

Dense 모델 vs MoE 모델

Dense 모델은 쉽게 말해서 모든 뉴런(신경망의 계산 단위)이 모든 입력에 대해 반응하는 구조예요. Llama 3 70B 같은 모델이 이런 방식이죠. 70B짜리 모델을 돌리려면 GPU 메모리가 140GB 정도는 필요해요. 개인이 쓰기엔 너무 부담스럽죠.

MoE 모델은 앞서 말씀드린 대로 일부 전문가만 활성화하는 구조예요. Qwen3.6-35B-A3B를 예로 들면

총 파라미터: 350억 개 (GPU 메모리에는 다 올려야 함)
활성 파라미터: 30억 개 (실제 연산 시 사용)
결과: 35B 모델의 지식 용량 + 3B 모델의 추론 속도

여기서 "어? 그럼 메모리는 어차피 다 필요하잖아요?"라고 물으실 텐데요. 맞아요. MoE의 단점이 바로 이거예요. 메모리 요구량은 줄지 않지만, 추론 속도와 전력 소비는 훨씬 줄어든다는 거죠. 그래서 서빙 비용을 줄이는 데 특히 유리해요.

라우터(Router)가 핵심이에요

MoE에서 가장 중요한 부품은 라우터라는 녀석이에요. 이게 뭐냐면, "이번 토큰을 처리할 때는 어느 전문가 3명을 부를까?"를 결정하는 교통 정리 담당이에요. 라우터가 똑똑해야 MoE 모델 전체가 잘 돌아가거든요.

라우터가 잘못 학습되면 어떤 전문가는 매번 불려 나가서 과로하고, 어떤 전문가는 놀기만 하는 불균형이 생겨요. 이걸 방지하기 위해 load balancing loss라는 추가 학습 기법을 쓰는데, 이게 MoE를 잘 만드는 회사와 못 만드는 회사의 차이를 가르는 포인트 중 하나예요.

경쟁 모델들과 비교해보면

그럼 비슷한 시기에 나온 다른 모델들과 어떻게 다른지 한번 정리해볼게요.

DeepSeek-V3 / V3.1과 비교

DeepSeek도 MoE 계열의 강자예요. DeepSeek-V3는 총 671B 파라미터에 활성 37B 정도 되거든요. 규모 자체는 Qwen3.6-35B-A3B보다 훨씬 크지만, 개인 개발자가 다루기엔 너무 무거워요. 반면 Qwen3.6-35B-A3B는 35B 규모라서 RTX 3090 두 장이나 A6000 한 장 정도면 돌릴 수 있는 수준이에요. 말하자면 "로컬에서 실제로 쓸 수 있는 MoE"를 노린 거죠.

Llama 4와 비교

Meta의 Llama 4도 MoE 방식을 채택했는데, 커뮤니티 반응은 좀 미묘했어요. 기대했던 것만큼 성능이 나오지 않는다는 평이 많았거든요. 반면 Qwen 시리즈는 실제 벤치마크에서 체감되는 퀄리티가 높다는 평이 지배적이에요. 특히 한국어, 중국어 같은 아시아권 언어에서는 Llama보다 Qwen이 훨씬 자연스럽다는 의견이 많아요.

GPT-OSS, Mistral과 비교

OpenAI가 오랜만에 공개한 오픈웨이트 모델인 GPT-OSS도 MoE예요. 그리고 Mistral의 Mixtral도 마찬가지고요. 이제 MoE는 오픈소스 LLM의 사실상 표준이 되어가고 있다고 봐도 과언이 아니에요. Dense 모델은 특정 사이즈에서만 살아남고, 효율이 중요한 모든 영역은 MoE로 넘어가는 분위기예요.

실제 성능은 어떤가요?

Qwen 팀이 공개하는 벤치마크들을 보면, 이번 3.6 버전은 특히 코딩과 수학 추론에서 큰 향상이 있었다고 해요. MMLU, GPQA, HumanEval, MATH 같은 대표적인 벤치마크에서 이전 세대 대비 10~20% 수준의 향상을 보이는데요.

그런데 벤치마크 숫자보다 더 중요한 건 실제 체감 성능이죠. 커뮤니티에서 돌려본 사람들의 반응을 보면

코딩 작업: 이전 Qwen 2.5-Coder보다 리팩토링 품질이 좋아짐
한국어: 문장 자연스러움이 GPT-4o 수준에 근접
속도: 활성 파라미터가 3B라 M2 Max 맥북에서도 초당 30토큰 이상 나옴
Long Context: 128K 컨텍스트 윈도우 유지

특히 마지막 부분이 중요한데요. 128K 컨텍스트 윈도우라는 건 긴 문서나 코드베이스 전체를 한 번에 넣고 질문할 수 있다는 뜻이에요. 웬만한 책 한 권 분량이죠.

한국 개발자에게 이게 왜 중요할까요?

자, 이제 우리 얘기를 해볼게요. 한국 개발자 입장에서 Qwen3.6-35B-A3B가 왜 눈여겨볼 만한지 몇 가지 시나리오로 정리해드릴게요.

시나리오 1: 사내 AI 어시스턴트 구축

"OpenAI API 쓰자니 보안 때문에 못 올리는 데이터가 있는데 어떡하지?"라는 고민, 많이 하시죠. 이런 경우 로컬 LLM이 답인데요. 지금까지는 70B급 모델을 돌리려면 A100 두 장(약 6천만 원)은 있어야 했거든요.

그런데 Qwen3.6-35B-A3B는 A6000 한 장(약 1천만 원)이나 RTX 4090 두 장이면 충분히 서빙할 수 있어요. 양자화(quantization, 쉽게 말해 모델을 압축해서 메모리를 덜 먹게 하는 기법)를 4비트로 하면 요구 메모리가 더 줄어들죠. 사내 코드 리뷰, 문서 요약, 고객 문의 자동 응답 같은 용도로 충분해요.

시나리오 2: 에이전트 시스템의 워커 모델

요즘 AI 에이전트가 화두잖아요. 에이전트라는 건, 쉽게 말해서 AI가 여러 도구를 스스로 호출하면서 일을 처리하는 시스템이에요. 그런데 에이전트는 한 번의 작업을 위해 LLM을 수십 번, 수백 번 호출하거든요. GPT-4로 이걸 다 돌리면 비용이 눈덩이처럼 불어나요.

이때 메인 오케스트레이터는 GPT-4, 서브 워커는 Qwen3.6-35B-A3B 같은 하이브리드 구조가 경제적이에요. 간단한 서브태스크는 로컬 모델이 처리하고, 복잡한 판단만 상위 모델이 하는 거죠.

시나리오 3: 파인튜닝 베이스 모델

한국어 특화 모델을 만들고 싶다면 Qwen 시리즈는 정말 좋은 출발점이에요. LoRA나 QLoRA 같은 경량 파인튜닝 기법(쉽게 말해 전체 모델을 다시 학습시키지 않고 일부만 살짝 조정하는 방법)으로 도메인 특화 모델을 만들 수 있거든요.

의료, 법률, 금융 등 산업 특화 모델을 만드는 스타트업이라면 Llama 라이선스 이슈(Meta가 특정 규모 이상 기업의 사용을 제한함)에서 자유로운 Qwen이 매력적일 수 있어요.

도입할 때 조심해야 할 점들

물론 장밋빛 얘기만 있는 건 아니에요. 실제로 도입하려면 고려할 점들이 있어요.

첫째, 라이선스 확인은 꼭 하세요. Qwen 시리즈는 일반적으로 Apache 2.0이나 그에 준하는 자유로운 라이선스를 채택해왔지만, 버전마다 약간씩 다를 수 있거든요. 상용 서비스에 쓸 거라면 꼭 원본 라이선스 문서를 읽어보세요.

둘째, 안전성 필터링은 별도로 준비하셔야 해요. OpenAI API처럼 내장된 안전 장치가 빈약한 편이에요. Guardrails AI, LlamaGuard 같은 보조 도구를 같이 써서 유해 콘텐츠를 걸러내는 파이프라인을 구축해야 합니다.

셋째, 인프라 운영 노하우가 필요해요. vLLM, TGI(Text Generation Inference), SGLang 같은 서빙 프레임워크를 써야 하는데, 각자 특성이 달라요. 처음이라면 vLLM부터 시작하는 걸 추천드려요. MoE 지원이 잘 되어 있고 문서도 풍부하거든요.

앞으로의 흐름, 어떻게 될까요?

이번 Qwen3.6 공개에서 읽을 수 있는 큰 그림은 세 가지예요.

첫 번째, 오픈소스와 클로즈드의 격차가 진짜로 좁혀지고 있다는 것. 이제는 "오픈소스는 장난감, 진짜는 GPT-4"라는 공식이 깨졌어요. 특정 태스크에서는 오픈소스가 오히려 유리한 경우도 많아지고 있어요.

두 번째, MoE가 표준이 되고 있다는 것. 이제 새로운 대형 모델 중에 Dense로 나오는 건 거의 없어요. 효율성이라는 측면에서 MoE의 장점이 너무 명확하거든요. 앞으로 로컬 LLM을 공부하시려면 MoE 개념은 꼭 익혀두시는 게 좋아요.

세 번째, 중국발 모델의 약진. DeepSeek, Qwen, GLM, Yi 등 중국 AI 랩들이 오픈소스 씬을 주도하고 있어요. 지정학적 이슈와 별개로, 기술적으로는 이들이 커뮤니티에 큰 기여를 하고 있다는 건 부인할 수 없는 사실이에요.

마치며

여러분은 어떤 용도로 로컬 LLM을 쓰고 계신가요? 혹은 아직 안 써보셨다면, Qwen3.6-35B-A3B가 그 첫 경험이 될 수도 있겠네요. Ollama나 LM Studio 같은 도구를 쓰면 맥북이나 윈도우 PC에서 클릭 몇 번으로 돌려볼 수 있거든요. 퀀타이즈된 4비트 버전은 20GB 정도 메모리만 있어도 돌아가니까, 요즘 좀 괜찮은 게이밍 PC 수준이면 충분해요.

직접 돌려보시고, 여러분의 서비스나 프로젝트에 어떻게 활용할 수 있을지 상상해보세요. 혹시 사내에서 OpenAI API 비용 때문에 고민하고 있는 팀이 있다면, 이번 주말에 한번 프로토타입을 만들어보시는 것도 좋을 것 같아요. 그 경험담, 커뮤니티에서 공유해주시면 다른 개발자들에게도 큰 도움이 될 거예요.

🔗 출처: Reddit