TECH 으로 돌아가기
TECH REDDIT 2026.04.17 15분 읽기 3,607 READS

[심층분석] Qwen3.6-35B-A3B 공개, 또 한 번 판을 흔드는 알리바바의 오픈소스 AI

드디어 등장한 Qwen3.6, 이번엔 뭐가 다를까요?

요즘 오픈소스 AI 모델 시장은 정말 하루가 다르게 움직이고 있어요. 중국 알리바바의 Qwen 팀에서 최신 모델인 Qwen3.6-35B-A3B를 공개했거든요. 이름만 봐도 알 수 있듯이, Qwen 3.5 시리즈의 후속 버전이에요. 그런데 숫자 뒤에 붙은 A3B라는 표기가 낯설죠? 이게 바로 이 모델의 핵심이에요.

먼저 간단히 풀어드리면, 35B는 전체 파라미터가 350억 개라는 뜻이고, A3B는 실제로 추론할 때 활성화되는(Active) 파라미터가 30억 개라는 의미예요. "어? 왜 350억 개를 다 안 쓰고 30억 개만 써요?" 하실 수 있는데, 바로 이 지점이 요즘 AI 업계에서 뜨거운 키워드인 MoE(Mixture of Experts, 전문가 혼합) 아키텍처의 핵심이에요.

쉽게 비유하자면 이런 거예요. 회사에 350명의 전문가가 있다고 칩시다. 그런데 모든 질문마다 350명이 다 회의에 들어오면 시간도 오래 걸리고 비효율적이잖아요? 그래서 질문 종류에 따라 딱 3명만 골라서 답변을 만드는 거예요. 결과물의 품질은 큰 모델 수준이지만, 속도와 비용은 작은 모델 수준으로 나오는 거죠. 이게 요즘 오픈소스 LLM의 대세인 MoE 방식이에요.

Qwen 시리즈가 걸어온 길

알리바바의 Qwen 시리즈를 처음 들어보는 분들을 위해 잠깐 배경을 설명드릴게요. Qwen은 알리바바 클라우드의 DAMO Academy에서 만드는 오픈소스 LLM 패밀리예요. 2023년에 처음 Qwen 1이 나왔을 때만 해도 "또 하나의 중국산 모델인가" 정도의 반응이었는데요.

그런데 Qwen 2, Qwen 2.5로 버전이 올라가면서 판도가 완전히 바뀌었어요. 특히 Qwen 2.5-Coder는 코딩 특화 모델로서 GPT-4 수준의 성능을 로컬에서 돌릴 수 있게 해줘서 개발자들 사이에서 열광적인 지지를 받았거든요. 그리고 Qwen 3 시리즈에 들어와서는 아예 OpenAI, Anthropic 같은 빅테크의 클로즈드 모델과 견주는 성능을 보이기 시작했어요.

Qwen 3.5에서는 하이브리드 추론(thinking/non-thinking) 모드가 추가되면서 또 한 번 주목을 받았어요. 이게 뭐냐면, 간단한 질문은 바로 답하고 복잡한 질문은 OpenAI의 o1처럼 내부적으로 생각하는 단계를 거쳐서 답하는 기능이에요. 사용자가 enable_thinking=True 같은 플래그로 켜고 끌 수 있어서 상황에 맞게 쓸 수 있죠.

이번에 나온 Qwen3.6-35B-A3B는 그 연장선에서 MoE 방식으로 효율성을 극한까지 끌어올린 버전이라고 보시면 돼요.

A3B 아키텍처, 진짜 핵심은 뭘까요?

자, 이제 기술적인 부분을 조금 더 깊이 들어가볼게요. MoE 아키텍처가 왜 그렇게 주목받는지 이해하려면, 기존의 Dense 모델과 비교해야 해요.

Dense 모델 vs MoE 모델

Dense 모델은 쉽게 말해서 모든 뉴런(신경망의 계산 단위)이 모든 입력에 대해 반응하는 구조예요. Llama 3 70B 같은 모델이 이런 방식이죠. 70B짜리 모델을 돌리려면 GPU 메모리가 140GB 정도는 필요해요. 개인이 쓰기엔 너무 부담스럽죠.

MoE 모델은 앞서 말씀드린 대로 일부 전문가만 활성화하는 구조예요. Qwen3.6-35B-A3B를 예로 들면

특히 마지막 부분이 중요한데요. 128K 컨텍스트 윈도우라는 건 긴 문서나 코드베이스 전체를 한 번에 넣고 질문할 수 있다는 뜻이에요. 웬만한 책 한 권 분량이죠.

한국 개발자에게 이게 왜 중요할까요?

자, 이제 우리 얘기를 해볼게요. 한국 개발자 입장에서 Qwen3.6-35B-A3B가 왜 눈여겨볼 만한지 몇 가지 시나리오로 정리해드릴게요.

시나리오 1: 사내 AI 어시스턴트 구축

"OpenAI API 쓰자니 보안 때문에 못 올리는 데이터가 있는데 어떡하지?"라는 고민, 많이 하시죠. 이런 경우 로컬 LLM이 답인데요. 지금까지는 70B급 모델을 돌리려면 A100 두 장(약 6천만 원)은 있어야 했거든요.

그런데 Qwen3.6-35B-A3B는 A6000 한 장(약 1천만 원)이나 RTX 4090 두 장이면 충분히 서빙할 수 있어요. 양자화(quantization, 쉽게 말해 모델을 압축해서 메모리를 덜 먹게 하는 기법)를 4비트로 하면 요구 메모리가 더 줄어들죠. 사내 코드 리뷰, 문서 요약, 고객 문의 자동 응답 같은 용도로 충분해요.

시나리오 2: 에이전트 시스템의 워커 모델

요즘 AI 에이전트가 화두잖아요. 에이전트라는 건, 쉽게 말해서 AI가 여러 도구를 스스로 호출하면서 일을 처리하는 시스템이에요. 그런데 에이전트는 한 번의 작업을 위해 LLM을 수십 번, 수백 번 호출하거든요. GPT-4로 이걸 다 돌리면 비용이 눈덩이처럼 불어나요.

이때 메인 오케스트레이터는 GPT-4, 서브 워커는 Qwen3.6-35B-A3B 같은 하이브리드 구조가 경제적이에요. 간단한 서브태스크는 로컬 모델이 처리하고, 복잡한 판단만 상위 모델이 하는 거죠.

시나리오 3: 파인튜닝 베이스 모델

한국어 특화 모델을 만들고 싶다면 Qwen 시리즈는 정말 좋은 출발점이에요. LoRA나 QLoRA 같은 경량 파인튜닝 기법(쉽게 말해 전체 모델을 다시 학습시키지 않고 일부만 살짝 조정하는 방법)으로 도메인 특화 모델을 만들 수 있거든요.

의료, 법률, 금융 등 산업 특화 모델을 만드는 스타트업이라면 Llama 라이선스 이슈(Meta가 특정 규모 이상 기업의 사용을 제한함)에서 자유로운 Qwen이 매력적일 수 있어요.

도입할 때 조심해야 할 점들

물론 장밋빛 얘기만 있는 건 아니에요. 실제로 도입하려면 고려할 점들이 있어요.

첫째, 라이선스 확인은 꼭 하세요. Qwen 시리즈는 일반적으로 Apache 2.0이나 그에 준하는 자유로운 라이선스를 채택해왔지만, 버전마다 약간씩 다를 수 있거든요. 상용 서비스에 쓸 거라면 꼭 원본 라이선스 문서를 읽어보세요.

둘째, 안전성 필터링은 별도로 준비하셔야 해요. OpenAI API처럼 내장된 안전 장치가 빈약한 편이에요. Guardrails AI, LlamaGuard 같은 보조 도구를 같이 써서 유해 콘텐츠를 걸러내는 파이프라인을 구축해야 합니다.

셋째, 인프라 운영 노하우가 필요해요. vLLM, TGI(Text Generation Inference), SGLang 같은 서빙 프레임워크를 써야 하는데, 각자 특성이 달라요. 처음이라면 vLLM부터 시작하는 걸 추천드려요. MoE 지원이 잘 되어 있고 문서도 풍부하거든요.

앞으로의 흐름, 어떻게 될까요?

이번 Qwen3.6 공개에서 읽을 수 있는 큰 그림은 세 가지예요.

첫 번째, 오픈소스와 클로즈드의 격차가 진짜로 좁혀지고 있다는 것. 이제는 "오픈소스는 장난감, 진짜는 GPT-4"라는 공식이 깨졌어요. 특정 태스크에서는 오픈소스가 오히려 유리한 경우도 많아지고 있어요.

두 번째, MoE가 표준이 되고 있다는 것. 이제 새로운 대형 모델 중에 Dense로 나오는 건 거의 없어요. 효율성이라는 측면에서 MoE의 장점이 너무 명확하거든요. 앞으로 로컬 LLM을 공부하시려면 MoE 개념은 꼭 익혀두시는 게 좋아요.

세 번째, 중국발 모델의 약진. DeepSeek, Qwen, GLM, Yi 등 중국 AI 랩들이 오픈소스 씬을 주도하고 있어요. 지정학적 이슈와 별개로, 기술적으로는 이들이 커뮤니티에 큰 기여를 하고 있다는 건 부인할 수 없는 사실이에요.

마치며

여러분은 어떤 용도로 로컬 LLM을 쓰고 계신가요? 혹은 아직 안 써보셨다면, Qwen3.6-35B-A3B가 그 첫 경험이 될 수도 있겠네요. OllamaLM Studio 같은 도구를 쓰면 맥북이나 윈도우 PC에서 클릭 몇 번으로 돌려볼 수 있거든요. 퀀타이즈된 4비트 버전은 20GB 정도 메모리만 있어도 돌아가니까, 요즘 좀 괜찮은 게이밍 PC 수준이면 충분해요.

직접 돌려보시고, 여러분의 서비스나 프로젝트에 어떻게 활용할 수 있을지 상상해보세요. 혹시 사내에서 OpenAI API 비용 때문에 고민하고 있는 팀이 있다면, 이번 주말에 한번 프로토타입을 만들어보시는 것도 좋을 것 같아요. 그 경험담, 커뮤니티에서 공유해주시면 다른 개발자들에게도 큰 도움이 될 거예요.


🔗 출처: Reddit

SOURCE · REDDIT
원문 전체 보기 → https://reddit.com/r/LocalLLaMA/comments/1sn3izh/qwen3635ba3...
SHARE
처리 중...