阿里千问斩获NeurIPS 2025最佳论文,揭秘模型性能提升核心原理
11月27日,人工智能领域的顶级学术会议NeurIPS 2025正式公布本年度的最佳论文奖。阿里巴巴旗下通义千问团队凭借在注意力机制领域的创新研究,从全球5524篇投稿中脱颖而出,成为唯一获此殊荣的中国研究团队。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这项突破性研究首次系统揭示了注意力门控机制对大语言模型性能与训练稳定性的影响机制。研究团队通过在1.7B参数稠密模型与15B混合专家模型上进行超过3.5万亿token的大规模训练,并进行了30余组对照实验,不仅验证了门控注意力在提升模型性能方面的显著效果,还成功应用于新一代Qwen3-Next模型,显著提升了模型的推理能力与鲁棒性。

通义千问团队研究成果荣获NeurIPS 2025最佳论文奖
作为大语言模型架构中的关键技术组件,注意力门控机制如同模型的"智能降噪耳机",能有效过滤冗余信息,提升关键特征的提取效率。近年来,从AlphaFold2到Forgetting Transformer等前沿模型都尝试将门控机制与注意力计算相结合,但学术界始终缺乏对门控在注意力机制中有效性的理论解释,也缺少在工业级规模模型上的实践验证。
在本研究中,研究人员首次清晰阐述了门控注意力背后的工作原理,并系统展示了在注意力计算中应用门控机制的最优方式及扩展实践。实验结果显示,对各个注意力头的输出施加门控是提升模型性能最有效的方式。
具体而言,采用该方法仅需引入1%的额外参数,计算开销增幅低于2%,即可实现困惑度下降0.2以上、MMLU基准测试提升2个百分点的显著效果。进一步研究发现,该技术方案在更大规模模型训练上展现出更优的性能提升潜力。

通过论文方法,模型在引入少量额外参数和计算开销的情况下,实现了性能的显著提升
深入分析表明,注意力门控机制还解决了大模型长期存在的两大技术难题:注意力池现象,即少数特殊token在计算中产生异常大的注意力分数;以及大规模激活问题,即模型激活值出现远超正常范围的离群值。这两种现象在BF16等低精度训练环境下容易引发数值误差,影响训练稳定性与部署效果。实验数据显示,门控注意力将首token注意力占比从46.7%降至4.8%,同时将最大激活值从1053降低至94。
目前,该技术方案涉及的全部实验模型及产品级实现均已开源。NeurIPS评审委员会对此评价道:"我们相信该方法将获得广泛应用,这项重要工作将极大推动学界对大规模语言模型中注意力机制的理解。"
通义千问团队表示:"对门控机制等基础组件的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、高效、可控的大模型奠定了坚实基础。"
据了解,阿里千问系列模型目前已开源300余款不同规模架构的模型,覆盖全模态、全尺寸,全球下载量突破7亿次,衍生模型数量超过18万个,持续领跑全球开源社区。
相关攻略
3月27日消息,3月26日晚间,在本月初离职,广受科技圈关注的原阿里千问技术负责人林俊旸在社交账号发布了一篇名为《From "Reasoning " Thinking to "Agentic " Thi
如果说人工智能是当今科技发展的明珠,那么大语言模型就是这颗明珠上最璀璨的光芒。来自阿里巴巴集团的研究团队最近发布了他们的最新成果——通义千问2 5技术报告,这项研究于2025年1月发表,论文编号为a
3月6日消息,3月5日晚间,针对近日网络流传阿里巴巴“千问模型核心团队集体离职”“开源策略调整”等不实信息,阿里集团辟谣表示:1、目前千问模型团队稳定,没有出现“集体离职”的情况,所有产品与服务运行
3月5日消息,近日,阿里通义千问团队出现多位人员变动,多位核心成员相继官宣离职。起因先是通义千问核心负责人林俊旸官宣自己从千问项目卸任,此举引发外界对其去向的广泛讨论。此后,Qwen后训练负责人郁博
3月4日消息,今日凌晨,千问核心负责人林俊旸在X发文:me stepping down bye my beloved qwen (我卸任了。再见了,我亲爱的千问。)此前,3月2日晚间,阿里千问正式
热门专题
热门推荐
OpenAI收购AI安全平台Promptfoo,强化企业级智能体安全防线 这周末,AI界又有个重量级的消息传来。北京时间3月10日,OpenAI官方宣布,已经与AI安全平台Promptfoo达成收购协议,目前这笔交易正在等待常规成交条件的最终确认。 话说回来,OpenAI选择Promptfoo,看中
电脑蓝屏多数可逆,先重启记录错误代码;再进安全模式卸载新软件、回滚驱动、禁用启动项;接着用sfc和DISM修复系统文件;最后排查内存、硬盘、散热等硬件问题。电脑开机就蓝屏,别急着重
在纷繁的区块链游戏生态中,League of Kingdoms Arena (LOKA)是一个不容忽视的名字。作为支撑同名大型多人在线策略游戏的原生代币,LOKA诞生于2021年,运行在以太坊网络上。在这片虚拟大陆上,玩家建设王国、训练军队、并通过联盟争夺领土控制权。持有LOKA不仅仅是投资,更意味
在使用summernote富文本编辑器时,上传文件是一项很实用的功能。它可以让用户轻松地在富文本内容中添加各种类型的文件,如图片、文档等,丰富编辑体验。下面就来详细介绍一下summ
电影猎手App投屏指南:三步轻松放大荧幕体验 想用电影猎手在电视大屏上追剧,却发现操作有点摸不着头脑?别急,其实整个过程比你想象的要简单,跟着下面这个清晰的步骤走,几分钟就能搞定。关键在于找到屏幕上那个不起眼却功能强大的小图标。 详细投屏步骤分解 第一步:安装并找到心仪影片当然,一切的前提是您已在设





