阿里千问斩获NeurIPS 2025最佳论文,揭秘模型性能提升核心原理
11月27日,人工智能领域的顶级学术会议NeurIPS 2025正式公布本年度的最佳论文奖。阿里巴巴旗下通义千问团队凭借在注意力机制领域的创新研究,从全球5524篇投稿中脱颖而出,成为唯一获此殊荣的中国研究团队。
这项突破性研究首次系统揭示了注意力门控机制对大语言模型性能与训练稳定性的影响机制。研究团队通过在1.7B参数稠密模型与15B混合专家模型上进行超过3.5万亿token的大规模训练,并进行了30余组对照实验,不仅验证了门控注意力在提升模型性能方面的显著效果,还成功应用于新一代Qwen3-Next模型,显著提升了模型的推理能力与鲁棒性。

通义千问团队研究成果荣获NeurIPS 2025最佳论文奖
作为大语言模型架构中的关键技术组件,注意力门控机制如同模型的"智能降噪耳机",能有效过滤冗余信息,提升关键特征的提取效率。近年来,从AlphaFold2到Forgetting Transformer等前沿模型都尝试将门控机制与注意力计算相结合,但学术界始终缺乏对门控在注意力机制中有效性的理论解释,也缺少在工业级规模模型上的实践验证。
在本研究中,研究人员首次清晰阐述了门控注意力背后的工作原理,并系统展示了在注意力计算中应用门控机制的最优方式及扩展实践。实验结果显示,对各个注意力头的输出施加门控是提升模型性能最有效的方式。
具体而言,采用该方法仅需引入1%的额外参数,计算开销增幅低于2%,即可实现困惑度下降0.2以上、MMLU基准测试提升2个百分点的显著效果。进一步研究发现,该技术方案在更大规模模型训练上展现出更优的性能提升潜力。

通过论文方法,模型在引入少量额外参数和计算开销的情况下,实现了性能的显著提升
深入分析表明,注意力门控机制还解决了大模型长期存在的两大技术难题:注意力池现象,即少数特殊token在计算中产生异常大的注意力分数;以及大规模激活问题,即模型激活值出现远超正常范围的离群值。这两种现象在BF16等低精度训练环境下容易引发数值误差,影响训练稳定性与部署效果。实验数据显示,门控注意力将首token注意力占比从46.7%降至4.8%,同时将最大激活值从1053降低至94。
目前,该技术方案涉及的全部实验模型及产品级实现均已开源。NeurIPS评审委员会对此评价道:"我们相信该方法将获得广泛应用,这项重要工作将极大推动学界对大规模语言模型中注意力机制的理解。"
通义千问团队表示:"对门控机制等基础组件的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、高效、可控的大模型奠定了坚实基础。"
据了解,阿里千问系列模型目前已开源300余款不同规模架构的模型,覆盖全模态、全尺寸,全球下载量突破7亿次,衍生模型数量超过18万个,持续领跑全球开源社区。
相关攻略
今天,阿里千问在开源领域再次取得重要进展,正式推出四款Qwen3 5系列小尺寸模型:Qwen3 5-0 8B、2B、4B和9B。这一举措旨在全面覆盖从极致轻量化到高性能轻量级的多样化应用场景需求。 根据官方技术说明,这四款轻量级模型并非简单裁剪的版本,而是完整继承了Qwen3 5系列的核心优势,采用
2025年3月31日,阿里通义实验室正式推出CoPaw智能体框架的1 0版本。此次重大更新,标志着这一基于AgentScope生态构建的智能体开发平台,实现了从架构到能力的全面进化。其核心依然由框架层、记忆层与模型层三层构成,但各项具体功能已得到显著增强,旨在解决开发者在实际部署与应用中的核心挑战。
阿里云推出“千言云”AI服务平台,旨在构建AI智能体的全栈基础设施。平台封装模型服务为标准工具接口,支持自然语言指令调用云端能力,汇聚超480款主流模型,其自研旗舰模型表现优异。配套新一代服务器提升算力,创新订阅模式降低成本,推动云服务迈入“智能体原生”新阶段。
近期,阿里巴巴集团正加速推动其核心AI模型“通义千问”与淘宝电商平台的深度融合。此举绝非简单的技术叠加,而是旨在通过更自然的对话式交互,彻底重塑传统的在线购物体验,标志着电商行业智能化转型进入新阶段。 展望未来,消费者或许不再需要频繁进行关键词搜索、手动比价与复杂筛选。用户只需像与朋友交谈一样,向A
4月12日,阿里云官方发布产品调整通知:其大模型服务平台“百炼”旗下的AI编程服务套餐——Coding Plan Lite基础版,将于4月13日18时起正式停止续费与升级服务。此举意味着,这款面向开发者群体的入门级AI编程订阅套餐即将退出市场。 实际上,这一变动早有端倪。早在3月20日,阿里云就已停
热门专题
热门推荐
在现代化仓储物流管理中,实现实时、精准的库存可视化是提升运营韧性与效率的核心环节。近日,知名定制化第三方物流服务商Romark Logistics宣布了一项重要技术升级:在其位于哈兹尔顿的仓储基地正式部署由Dexory提供的AI驱动仓储可视化平台DexoryView。此举标志着Romark Logi
今天,谷歌正式将我们带入了一个新的阶段:AI智能体时代。其推出的Gemini Spark,被定义为一款能够全天候运行的个人AI助手。它的核心使命很明确——接管我们日益复杂的数字生活,并实实在在地替我们处理一些工作。 这款助手的“大脑”是最新发布的Gemini 3 5 Flash模型,而协调其行动的“
近日,《自然》杂志同期发表了两项突破性研究,展示了两种旨在革新科研工作流的AI系统。一款来自谷歌,名为Co-Scientist,强调人机深度协作;另一款由非营利机构FutureHouse开发,其系统更进一步,能对特定生物实验数据进行自动化评估与分析。 尽管谷歌表示其系统架构同样适用于物理学探索,但两
谷歌近期对其“氛围编程”平台进行了重要升级。现在,开发者可以直接在谷歌AI Studio中,通过自然语言对话来构建安卓原生应用。 具体操作流程非常直观:用户只需用日常语言描述自己的应用构思,平台内置的安卓模拟器便会实时生成应用预览。若想在实际设备上测试,只需将安卓手机连接至电脑,即可直接安装体验。更
今天,科大讯飞旗下孵化的AI硬件品牌未来智能,正式发布了其创新产品——viaim讯飞智能体耳机。这款产品的核心突破在于,将先进的办公AI Agent能力,集成到一款日常可佩戴的耳机设备中。它不仅超越了传统录音转写功能,更实现了长期记忆存储、多模型灵活调用与智能复盘分析,目标清晰:将耳机从单纯的音频播





