返回首页
笔记

Qwen3:混合推理新路标,开源落地抢生态

4月底阿里巴巴通义千问团队开源发布 Qwen3 系列模型,支持快慢思考混合推理,在不少性能指标上赶超 DeepSeek-R1、OpenAI-o1 等模型,一上线便引起热议并冲上 HuggingFace 热榜。Qwen3 做出了哪些创新、会产生什么意义,本文尝试分析解读。

Open SourceAI Model Innovation

2025-04-29 阿里巴巴通义千问团队开源发布 Qwen3 系列模型,支持快慢思考混合推理,在不少性能指标上赶超 DeepSeek-R1、OpenAI-o1 等模型,一上线便引起热议并冲上 HuggingFace 热榜。Qwen3 做出了哪些创新、会产生什么意义,本文尝试分析解读。

混合推理新路标

Qwen3 最大的亮点是全系列支持混合推理,即提供了一个开关在快思考和慢思考两种模式做切换:同一个模型,快思考模式主打快速响应、靠直觉回答简单的问题;慢思考模式则强调推理、通过链式思维来推导解决复杂的问题。在慢思考模式中,Qwen3 还可以通过参数来指导模型的思考时长,从而控制 token 消耗和推理预算。Qwen3 是继 Claude 3.7 Sonnet、Gemini 2.5 Flash 后第三款、国内第一款支持混合推理的主流模型,也是首个开源的全系列混合推理模型家族。

得益于慢思考模式的加入,Qwen3 系列在考察数学、编程等 STEM 能力的各项榜单中表现优异,与业界领先的 OpenAI o1、DeepSeek-R1、Gemini 2.5 Pro 等模型基本持平甚至赶超。

值得一提的是,除了在推理选项中支持开发者配置的慢思考硬开关外,Qwen3 还有一个软开关,允许用户在对话过程中通过 /think/no_think 两个关键词来选择每轮回答的思考模式,相较 Claude 3.7 Sonnet 等之前的模型更为便捷。

OpenAI 很早就在规划打造快慢思考结合的 GPT-5,但因低估了实现难度迟迟未能推出,反而是 Anthropic 和 Google 率先发布混合推理模型。通义千问此次跟上,补足了开源力量,有望形成新的标准。下一步预计就是教会模型自主选择快慢思考、根据问题优化思考时间,从而实现推理自动挡。

尺寸语种广覆盖

Qwen3 系列共包含 8 个模型,参数量从 0.6B 到 235B,尺寸覆盖非常全面。按照模型架构可以分为两组:

  • 稠密模型 6 个,训练推理时所有参数都会激活,直接后缀参数量命名:Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B、Qwen3-32B
  • 稀疏模型 2 个,采用 MoE 混合专家架构,训练推理时只有部分参数会被激活,采用 [总参数量]-A[激活参数量] 的后缀:Qwen3-30B-A3B、Qwen3-235B-A22B

这样的尺寸排布为下游使用带来了很大好处,开发者们可以根据资源条件按需选用合适参数的模型。比如旗舰模型 Qwen3-235B-A22B 能够在 4 张 H20 GPU 上运行,部署成本相比 DeepSeek-R1 显著降低;14B 到 32B 的几个模型则可运行于工作站、消费级个人电脑等;而 4B 及以下尺寸,更适用于手机等端侧场景。

作为对比,Meta 4 月初发布的 Llama 4 系列同样采取 MoE 架构,但在尺寸设计上惨遭滑铁卢。放出的两个模型 Llama 4 Maverick 和 Llama 4 Scout 激活参数同为 17B,但前者总参数 400B,后者总参数 109B,均远远超出了消费级硬件的能力范围,被开源社区诟病,拉低了前三代 Llama 积累下来的良好口碑。

除了尺寸谱系全面,Qwen3 的多语种能力也得到了大大加强。官方称 Qwen3 提供对 119 种语言及方言的支持,与 Qwen2.5 系列的 29 种相比,显著增多了小语种支持,也远多于 Llama 4 系列的 12 种,从而为更广泛的国际化应用打开空间。

从这两个方向上看,Qwen 系列模型颇有取代 Llama 之势。事实上,基于 Qwen 的衍生模型数量超过 10 万个,的确已高于 Llama 并持续领先。大家熟知的「非满血版」DeepSeek-R1,多数也是基于 Qwen2.5 的不同尺寸蒸馏而来。通过进一步加强合理尺寸和语种的广泛覆盖,Qwen 将在开源战场拿下更多份额、赢得更好口碑。

图源:
图源:

安全舒适上规模

通过三阶段的预训练过程,Qwen3 消化了两倍于 Qwen2.5 的 token 量,达到了 36T。除了网络数据外,团队还借助 Qwen2.5-VL 提取了 PDF 数据、借助 Qwen2.5-Math 和 Qwen2.5-Coder 合成了 STEM 数据和代码等作为补充。得益于数据增量、预训练阶段优化和 MoE 架构等,Qwen3-235B-A22B 的 预训练 Base 模型在仅激活 22B 参数的情况下,各项指标均超过 Qwen2.5-72B-Base。

Qwen3 的后训练过程很大程度上参考了 DeepSeek-R1 多阶段强化学习的配方,但增加了思考模式融合的过程,从而支持前文提及的混合推理。需要注意的是,Qwen3 系列中经历完整后训练过程的只有 Qwen-235B-A22B 和 Qwen3-32B 两个模型,作为稀疏模型和稠密模型分别验证了强化学习的规模化路线,其余六款则由这两个模型对应蒸馏而来。

可以发现,Qwen3 最核心的创新在于通过后训练实现了开源模型的混合推理,除此之外更多是各环节的稳健优化。向 DeepSeek 等同行学习的同时,也从自己之前的模型中充分吸收经验,背后其实是大模型研发流水线的持续迭代。从小规模实验出发,逐步验证和扩大,从而实现对 scaling law 的系统性推进。

一个额外的例子是原生多模态的缺失。Meta Llama 团队在训练 Llama 4 的时候,直接将多模态数据引入预训练,赋予了模型原生的图像理解能力。Qwen3 并没有这样做,预期后续仍会以 Qwen3-VL 的形式发布多模态模型。考虑到目前原生多模态的成功经验仍较为有限,Qwen 一定程度上也是将规模化放在了相对安全舒适的范围内。

开源落地抢生态

3月底时,Qwen3 相关代码已合并至 HuggingFace 开源仓库 transformers 中,但过了整整一个月才真正发布模型。合理的推测是团队需要与众多生态合作伙伴们共同筹备,协助其对 Qwen3 提供 0-day 支持,以实现发布即全面可用的效果。其中既包括 SGLang、vLLM 等生产级推理框架,也不乏 Ollama、LM Studio 等本地运行工具,还联合了 Together、Fireworks 等一众推理服务厂商,声势浩大,几乎覆盖了 LLM 开源生态的大半江山。

事实上 Qwen3 的发布也确实达到了其预期的效果,当天就占据了 Reddit 大模型专业讨论版块 LocalLLAMA 的几乎全部页面。同时,Qwen3 也很快冲上 HuggingFace 热榜,并持续霸榜一周至今。

在此之前,Qwen 开源时往往会对不同模型采用不同的协议约束,比如 Qwen2.5 系列中最强的 72B 模型用的就是自家的 Qwen 协议,限制月活用户过亿的公司使用,与 Meta 的 Llama 协议相仿,都属于所谓的「大竞对免用」协议。或许是受到 DeepSeek 采用 MIT 协议几乎无条件开源的影响,Qwen3 全系模型统一改用较为宽松的 Apache 2.0 协议,无论是研究、开发还是商业化应用都得到支持。

落地应用方面,Qwen3 突出强调了对 Agent 的支持,甚至在一些传播中称「原生支持 MCP」。这里必需说明的是,目前模型层面能够提升的仅仅是工具使用的能力,即训练模型在需要的时候选择对的工具并正确使用,而对 MCP 协议的支持是上层应用的事情,底层模型仅决定应用靠谱与否,与 MCP 关系不大。官方提供的 Qwen3 MCP 例子,使用了自家另一个工具 Qwen-Agent(相当于一个支持了 MCP 协议的框架),也并未体现出 Qwen3 模型对 MCP 的原生支持。只能推测通义千问团队是希望借 MCP 的热点进一步加强传播、抢夺生态了。

小结

后 DeepSeek 时期,Qwen3 通过系统性工程找到了训练优化方向,并以率先开源的混合推理打出了自己的特色。而无论是精选的尺寸谱系、扩大的语种覆盖,还是更宽松的开源协议、与合作伙伴的深度共建,都暗含了通义千问团队在「开发者友好大模型」上的思考,也展现出其在开源大模型生态争夺中的激进姿态。但毫无疑问这是一场长线战争,唯有长期主义的战略投入,炼就扎实的基本功、持续维持在第一梯队,方能笑到最后。

参考资料

https://qwenlm.github.io/blog/qwen3/

https://qwenlm.github.io/blog/qwen2.5/

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

https://mp.weixin.qq.com/s/9mY64BEch7tOdVHeSGjSEA