首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里千问斩获NeurIPS 2025最佳论文,揭秘模型性能提升核心原理

阿里千问斩获NeurIPS 2025最佳论文,揭秘模型性能提升核心原理

热心网友
96
转载
2025-11-27

11月27日,人工智能领域的顶级学术会议NeurIPS 2025正式公布本年度的最佳论文奖。阿里巴巴旗下通义千问团队凭借在注意力机制领域的创新研究,从全球5524篇投稿中脱颖而出,成为唯一获此殊荣的中国研究团队。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项突破性研究首次系统揭示了注意力门控机制对大语言模型性能与训练稳定性的影响机制。研究团队通过在1.7B参数稠密模型与15B混合专家模型上进行超过3.5万亿token的大规模训练,并进行了30余组对照实验,不仅验证了门控注意力在提升模型性能方面的显著效果,还成功应用于新一代Qwen3-Next模型,显著提升了模型的推理能力与鲁棒性。

通义千问团队研究成果荣获NeurIPS 2025最佳论文奖

作为大语言模型架构中的关键技术组件,注意力门控机制如同模型的"智能降噪耳机",能有效过滤冗余信息,提升关键特征的提取效率。近年来,从AlphaFold2到Forgetting Transformer等前沿模型都尝试将门控机制与注意力计算相结合,但学术界始终缺乏对门控在注意力机制中有效性的理论解释,也缺少在工业级规模模型上的实践验证。

在本研究中,研究人员首次清晰阐述了门控注意力背后的工作原理,并系统展示了在注意力计算中应用门控机制的最优方式及扩展实践。实验结果显示,对各个注意力头的输出施加门控是提升模型性能最有效的方式。

具体而言,采用该方法仅需引入1%的额外参数,计算开销增幅低于2%,即可实现困惑度下降0.2以上、MMLU基准测试提升2个百分点的显著效果。进一步研究发现,该技术方案在更大规模模型训练上展现出更优的性能提升潜力。

通过论文方法,模型在引入少量额外参数和计算开销的情况下,实现了性能的显著提升

深入分析表明,注意力门控机制还解决了大模型长期存在的两大技术难题:注意力池现象,即少数特殊token在计算中产生异常大的注意力分数;以及大规模激活问题,即模型激活值出现远超正常范围的离群值。这两种现象在BF16等低精度训练环境下容易引发数值误差,影响训练稳定性与部署效果。实验数据显示,门控注意力将首token注意力占比从46.7%降至4.8%,同时将最大激活值从1053降低至94。

目前,该技术方案涉及的全部实验模型及产品级实现均已开源。NeurIPS评审委员会对此评价道:"我们相信该方法将获得广泛应用,这项重要工作将极大推动学界对大规模语言模型中注意力机制的理解。"

通义千问团队表示:"对门控机制等基础组件的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、高效、可控的大模型奠定了坚实基础。"

据了解,阿里千问系列模型目前已开源300余款不同规模架构的模型,覆盖全模态、全尺寸,全球下载量突破7亿次,衍生模型数量超过18万个,持续领跑全球开源社区。

来源:https://www.51cto.com/article/830622.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

千问负责人林俊暋离职后首发声:大模型技术的未来思考
业界动态
千问负责人林俊暋离职后首发声:大模型技术的未来思考

3月27日消息,3月26日晚间,在本月初离职,广受科技圈关注的原阿里千问技术负责人林俊旸在社交账号发布了一篇名为《From "Reasoning " Thinking to "Agentic " Thi

热心网友
03.27
通义千问2.5升级:18万亿字符打造强大中英文AI助手
科技数码
通义千问2.5升级:18万亿字符打造强大中英文AI助手

如果说人工智能是当今科技发展的明珠,那么大语言模型就是这颗明珠上最璀璨的光芒。来自阿里巴巴集团的研究团队最近发布了他们的最新成果——通义千问2 5技术报告,这项研究于2025年1月发表,论文编号为a

热心网友
03.09
千问团队震荡发酵!阿里回应核心成员离职并非集体辞
业界动态
千问团队震荡发酵!阿里回应核心成员离职并非集体辞

3月6日消息,3月5日晚间,针对近日网络流传阿里巴巴“千问模型核心团队集体离职”“开源策略调整”等不实信息,阿里集团辟谣表示:1、目前千问模型团队稳定,没有出现“集体离职”的情况,所有产品与服务运行

热心网友
03.06
阿里千问动荡:谷歌公开挖角多位关键研究员
业界动态
阿里千问动荡:谷歌公开挖角多位关键研究员

3月5日消息,近日,阿里通义千问团队出现多位人员变动,多位核心成员相继官宣离职。起因先是通义千问核心负责人林俊旸官宣自己从千问项目卸任,此举引发外界对其去向的广泛讨论。此后,Qwen后训练负责人郁博

热心网友
03.05
阿里最年轻P10林俊暎技术负责人发文卸任:千字回顾历程
业界动态
阿里最年轻P10林俊暎技术负责人发文卸任:千字回顾历程

3月4日消息,今日凌晨,千问核心负责人林俊旸在X发文:me stepping down bye my beloved qwen (我卸任了。再见了,我亲爱的千问。)此前,3月2日晚间,阿里千问正式

热心网友
03.04

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

OpenAI宣布正收购AI安全平台Promptfoo
AI
OpenAI宣布正收购AI安全平台Promptfoo

OpenAI收购AI安全平台Promptfoo,强化企业级智能体安全防线 这周末,AI界又有个重量级的消息传来。北京时间3月10日,OpenAI官方宣布,已经与AI安全平台Promptfoo达成收购协议,目前这笔交易正在等待常规成交条件的最终确认。 话说回来,OpenAI选择Promptfoo,看中

热心网友
03.31
Windows电脑开机蓝屏?快速解决死机故障的5种有效方法
电脑教程
Windows电脑开机蓝屏?快速解决死机故障的5种有效方法

电脑蓝屏多数可逆,先重启记录错误代码;再进安全模式卸载新软件、回滚驱动、禁用启动项;接着用sfc和DISM修复系统文件;最后排查内存、硬盘、散热等硬件问题。电脑开机就蓝屏,别急着重

热心网友
03.31
什么是LOKA代币?League of Kingdoms游戏深度解析与LOKA价格预测2025-2030年趋势分析
web3.0
什么是LOKA代币?League of Kingdoms游戏深度解析与LOKA价格预测2025-2030年趋势分析

在纷繁的区块链游戏生态中,League of Kingdoms Arena (LOKA)是一个不容忽视的名字。作为支撑同名大型多人在线策略游戏的原生代币,LOKA诞生于2021年,运行在以太坊网络上。在这片虚拟大陆上,玩家建设王国、训练军队、并通过联盟争夺领土控制权。持有LOKA不仅仅是投资,更意味

热心网友
03.31
Summernote文件上传指南:3步实现富文本编辑器集成
手机教程
Summernote文件上传指南:3步实现富文本编辑器集成

在使用summernote富文本编辑器时,上传文件是一项很实用的功能。它可以让用户轻松地在富文本内容中添加各种类型的文件,如图片、文档等,丰富编辑体验。下面就来详细介绍一下summ

热心网友
03.31
电影猎手app怎么投屏-投屏教程
手机教程
电影猎手app怎么投屏-投屏教程

电影猎手App投屏指南:三步轻松放大荧幕体验 想用电影猎手在电视大屏上追剧,却发现操作有点摸不着头脑?别急,其实整个过程比你想象的要简单,跟着下面这个清晰的步骤走,几分钟就能搞定。关键在于找到屏幕上那个不起眼却功能强大的小图标。 详细投屏步骤分解 第一步:安装并找到心仪影片当然,一切的前提是您已在设

热心网友
03.31