实测：Qwen下一代基础架构突袭，秒解AIME数学竞赛题，提速10倍+性价比提升10倍

首页/科技数码/文章详情

实测：Qwen下一代基础架构突袭，秒解AIME数学竞赛题，提速10倍+性价比提升10倍

时间：2025-09-12 21:19

Qwen下一代模型架构，抢先来袭！ Qwen3-Next发布，Qwen团队负责人林俊旸说，这就是Qwen3 5的抢先预览版。基于Qwen3-Next，团队先开源了Qwen3-Next-80

Qwen下一代模型架构，抢先来袭！

Qwen3-Next发布，Qwen团队负责人林俊旸说，这就是Qwen3.5的抢先预览版。

基于Qwen3-Next，团队先开源了Qwen3-Next-80B-A3B-Base。

模型参数80B，但训练成本连Qwen3-32B的十分之一都不到，并且在32 k以上的上下文推理吞吐能达到后者的十倍以上。

基于这一模型，团队接连出手，同步开发并发布了两大新模型：

Qwen3-Next-80B-A3B-Instruct：在256K超长上下文处理任务中展现出显著优势。

Qwen3-Next-80B-A3B-Thinking：在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。

网友表示，这更新频率令人震惊。

话不多说，赶紧来看看新模型有哪些改进吧。

4大重要改进

Qwen3-Next的核心改进有4方面：

混合注意力机制高稀疏度MoE结构稳定性优化多token预测机制

混合注意力机制

线性注意力在长上下文处理中效率很高，但召回能力有限，而标准注意力计算开销大、推理效率低，单独使用均存在局限。

为此，Qwen团队引入Gated DeltaNet，其在上下文学习能力上优于常用的滑动窗口注意力和Mamba2，并在采用3:1的混合策略（75%层使用 Gated DeltaNet，25%层保留标准注意力）时，兼顾性能与效率。

同时，在保留的标准注意力层中，他们进一步引入了多项优化设计：

1、延续先前工作的输出门控机制，以缓解注意力中的低秩问题；

2、将单个注意力头的维度从128扩展至256；

3、仅对注意力头前25%的维度加入旋转位置编码，以增强长序列外推能力。

高稀疏度MoE结构

Qwen3-Next采用高稀疏度的MoE架构，总参数量达800亿，但每次推理仅激活约30亿参数。

相比Qwen3-MoE的128个总专家和8个路由专家，Qwen3-Next 扩展到512个总专家，并采用10路由专家加1共享专家的组合设计，在保证性能的前提下最大化资源利用率。

训练稳定性优化

在Qwen3-Next中，团队为进一步提高模型稳定性，采用了Zero-Centered RMSNorm，并在此基础上，对norm weight施加weight decay，以避免权重无界增长。

不仅如此，他们还在初始化时归一化了MoE router的参数，确保每个expert在训练早期都能被无偏地选中，减小初始化对实验结果的扰动。

多token预测机制

Qwen3-Next引入了原生Multi-Token Prediction（MTP）机制，不仅获得了Speculative Decoding接受率较高的MTP模块，还提升了模型主干的整体性能。

此外，它还对MTP的多步推理进行了专项优化，即通过训练推理一致的多步策略，进一步提高了在实际应用场景下Speculative Decoding的接受率。

快10倍，但便宜10倍

接下来，让我们一起看看新模型表现如何。

首先，Qwen3-Next使用了Qwen3 36T预训练语料的均匀采样子集，仅包含15T tokens。

其训练所需的GPU Hours不到 Qwen3-30A-3B的80%，相比 Qwen3-32B，仅需9.3%的GPU计算资源就能取得更优性能。

不仅如此，得益于创新的混合模型架构，Qwen3-Next在推理效率上也表现突出。

与Qwen3-32B相比，Qwen3-Next-80B-A3B在预填充（prefill）阶段就展现出卓越的吞吐能力：

在4k tokens的上下文长度下，吞吐量接近前者的7倍；当上下文长度超过32k时，吞吐提升更是达到10倍以上。

在解码（decode）阶段，该模型同样高效。4k上下文吞吐量提升约4倍，长上下文（32k+）场景中仍可保持超过10倍的吞吐优势。

基于Qwen3-Next，Qwen团队首先训练了Qwen3-Next-80B-A3B-Base模型。

该模型仅使用十分之一的Non-Embedding激活参数，就已在大多数基准测试中超越Qwen3-32B-Base，并显著优于Qwen3-30B-A3B，展现出出色的效率与性能优势。

基于Qwen3-Next-80B-A3B-Base的优异表现，团队进一步开发并发布了Qwen3-Next-80B-A3B-Instruct与Qwen3-Next-80B-A3B-Thinking。

Qwen3-Next-80B-A3B-Instruct

首先，Qwen3-Next-80B-A3B-Instruct的表现显著优于 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking，并在多数指标上接近Qwen3-235B-A22B-Instruct-2507。

除此之外，在RULER测试中，无论上下文长度如何，Qwen3-Next-80B-A3B-Instruct 的表现均超过了层数相同但注意力层更多的Qwen3-30B-A3B-Instruct-2507。

甚至在256 k范围内也优于层数更多的Qwen3-235B-A22B-Instruct-2507，充分体现了Gated DeltaNet与Gated Attention混合模型在长文本处理场景下的优势。

Qwen3-Next-80B-A3B-Thinking

再来看Qwen3-Next-80B-A3B-Thinking，其表现也相当不错。

在多项基准测试中都超过了闭源模型Gemini-2.5-Flash-Thinking，并在部分指标上接近Qwen最新的旗舰模型 Qwen3-235B-A22B-Thinking-2507。

推理能力相当可以

接下来让我们实测一下Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat网页，一上来就给它扔一道AIME数学竞赛题试试：

由于Qwen3-Next-80B-A3B支持多模态，这里我们可以直接上传图片。

几乎瞬间，模型就开始飞快地列出了详细解题思路和计算过程，最终得到的答案“588”与AIME标准答案完全吻合。

小试牛刀之后，接下来进入编程环节。

用p5js创建一个可直接玩的扫雷游戏。

麻将

代码成功运行后，我们也简单试玩了一下，流畅度还可以（doge）。

就是谁能解释一下为什么这个游戏背景是大红色，还没有网格线？？？

还有网友奇思妙想，用它生成了天气卡片。

不过，看到这个更新时，网友开心之余还是忍不住吐槽：

名字实在太复杂了。

麻将

参考链接：

[1]https://x.com/Alibaba_Qwen/status/1966197643904000262

[2]https://x.com/JustinLin610/status/1966199996728156167

[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

来源：https://36kr.com/p/3463502787614338

上一篇甲骨文大涨，算力疯狂 下一篇活久见，网友为LCD旗舰手机请愿，一场注定失败的自救？

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-07

谷歌升级Google Cloud机密计算产品

IT之家 7 月 6 日消息，谷歌宣布对旗下 Google Cloud 机密计算（Confidential Computing）产品进行升级，新增基于英伟达 Blackwell GPU 的机密虚拟机、开源 AI 提示词加密工具 Prompt Encryption SDK，同步升级 Confident

科技数码 · 2026-07-07

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

谷歌在大模型竞赛中憋出一张重磅底牌。据泄露信息，Gemini 3 5 Pro将于7月17日正式发布，其前端与视觉代码生成能力据称出现跨越式跃升，在多项测试中压制Anthropic的Fable 5，但在硬核推理与复杂工程任务上仍落后于对手。这款姗姗来迟的旗舰模型背后，是一次更为彻底的技术重构。据科技媒

科技数码 · 2026-07-07

年电池续航最长的荣耀手机别错过

在挑选2026年电池续航最长的手机时，许多人关注的不仅仅是实验室测试中的几分钟优势，更看重一天高强度使用后还能剩下多少电量。按照这个标准来看，荣耀X80 Pro Max确实很有代表性，它将大容量电池与真实日常场景紧密结合，是该需求下非常值得优先考虑的一款机型。荣耀X80 Pro Max直接搭载了一块

科技数码 · 2026-07-07

年高性价比手机推荐同预算选机更看重长期体验

在2026年性价比高的手机推荐榜单中，同价位机型往往更看重长期使用的综合体验。如果仅仅追求低价，很容易忽视续航、耐用性、屏幕素质与通信质量这些日常高频使用的核心维度。荣耀X80 Pro Max的主要竞争力，在于将11000mAh超大电池、军工级防护、万级亮度屏幕以及AI智能体验，全部集成到2000元

科技数码 · 2026-07-07

小米17系列销量超550万台 Ultra版约23.07万部

探讨小米17系列最新销量表现。据数码博主曝光的行业追踪数据，截至2026年第26周（即6月22日至6月28日），小米17系列全系累计销量已成功突破550万台大关。具体数据方面，系列总销量约为554 01万台。其中，定位顶配的小米17 Ultra贡献了约23 07万部。值得关注的是，面向中端市场的1