首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里千问斩获全球AI顶会最佳论文,中国唯一获奖研究

阿里千问斩获全球AI顶会最佳论文,中国唯一获奖研究

热心网友
35
转载
2025-11-28

11月28日,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队的最新研究成果从全球2万多篇投稿论文中脱颖而出,被评为最佳论文,成为唯一获得该奖项的中国团队。该论文首次在业内揭示了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的发展。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

中国唯一!阿里千问斩获全球AI顶会最佳论文

阿里通义千问研究成果被评为NeurIPS 2025最佳论文

NeurIPS是人工智能领域影响力最大的顶会之一,该会议诞生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖科技公司和机构共有2万多篇论文投稿,仅有约25%的论文被接收,而最佳论文仅4篇,入选概率不及万分之一,代表了目前全球人工智能领域最有价值和影响力的研究。

2017年,谷歌在NeurIPS发表的论文首次提出Transformer模型架构和自注意力机制,这一研究让AI能够像人类一样具备有选择性地关注关键信息的能力,成为当下大模型研究的基础。尽管现在大模型在很多领域已经取得接近甚至超越人类的表现,但现有注意力机制仍存在诸多局限,例如当下大模型会因为过度关注特定信息而导致对其它重要信息的忽略或处理偏差,这些局限性极大地影响了模型性能和训练稳定性,为此业界开始探索对注意力进行优化的新方案。

门控机制被认为是模型的"智能闸门",可以帮助模型过滤无效信息并提升模型性能。近年来,AlphaFold2、Forgetting Transformer等学术界和工业界模型开始尝试将门控和注意力机制结合。但业界尚未破解门控在注意力中发挥作用的内在原因,也缺少大规模实践的经验。

此次,通义千问研究团队通过在1.7B稠密模型(Dense)与15B混合专家模型(MoE)上进行了数十组实验,单组实验训练最多超过 3.5 万亿 tokens,首次清晰揭示了门控注意力背后的作用原理,并全面展示使用该方案的最佳方式。

实验结果显示,对各注意力头的输出进行门控,是提升模型性能最有效的方式。使用该方式,在引入额外1%参数的情况下,可实现0.2以上困惑度下降、MMLU基准测评2个点的提升。研究还发现,该技术还能在更大规模的模型训练上实现更好的性能。

中国唯一!阿里千问斩获全球AI顶会最佳论文

使用论文方法,在引入额外1%参数的情况下,可以实现0.2以上的困惑度下降、MMLU基准测评2个点的提升

目前,该研究成果已应用于Qwen3-Next模型,并显著提升模型的性能与鲁棒性,相关技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会指出:"这项工作将被广泛应用,并极大推动AI研究人员对大语言模型中注意力机制的理解。"

通义千问团队表示:"对门控注意力机制的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。"据悉,目前阿里千问已开源300多款模型,覆盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一。

来源:https://www.leiphone.com/category/industrynews/r7Vng3L1OYiEn2Sh.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

红旗阿里云联手,首次详解智能座舱“执行能力”
科技数码
红旗阿里云联手,首次详解智能座舱“执行能力”

导读:红旗“灵犀座舱”的尝试,既是大模型上车的进一步落地,也反映出智能座舱正在从信息交互工具,向车内服务入口转变。 【文 观察者网 周盛明 编辑 高莘】 在智能座舱从语音助手向大模型阶段演进的过程中

热心网友
03.29
阿里亲橙超级创业者社区在沪启动,AI生态圈赋能“超级个体”
科技数码
阿里亲橙超级创业者社区在沪启动,AI生态圈赋能“超级个体”

3月27日,阿里亲橙超级创业者社区启动仪式暨“上海徐汇滨江AI+医疗产业论坛”在阿里上海徐汇滨江园区举行。上海市徐汇区副区长陈勇,阿里巴巴集团副总裁刘菲,阿里云政企事业部、蚂蚁集团阿福团队、社区创业

热心网友
03.27
2026中关村论坛年会聚焦AI,一日洞察人工智能千里之行
科技数码
2026中关村论坛年会聚焦AI,一日洞察人工智能千里之行

从美国加州圣何塞参加2026年GTC大会回到北京不到一周,杨植麟站上2026中关村论坛年会全体会议的演讲台。这位Kimi创始人兼CEO分享了团队在残差结构上的新思考,一份获得马斯克称赞的技术报告。演

热心网友
03.27
金山云转型,用AI实现盈利的终局路径
科技数码
金山云转型,用AI实现盈利的终局路径

文 | 世界模型工场3月25日晚,雷军因“其他工作安排”辞任金山云非执行董事,同时不再担任董事长、提名委员会主席及薪酬委员会成员。同一天,金山云交出一份过去几年罕见的亮眼成绩单:2025年Q4营收2

热心网友
03.26
一汽红旗携手阿里云:造会办事的智能汽车座舱
科技数码
一汽红旗携手阿里云:造会办事的智能汽车座舱

来源:环球网【环球网科技综合报道】3月26日,一汽红旗宣布智能座舱系统“灵犀座舱”在业内首次成功接入千问智能体,将首发搭载于红旗HS6 PHEV,届时在车内可实现多模糊意图的精准识别与复杂路径的科学

热心网友
03.26

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

苹果或牵手长江存储:国产闪存芯片替代三星SK海力士
网络安全
苹果或牵手长江存储:国产闪存芯片替代三星SK海力士

3月29日消息,据行业爆料,苹果计划在面向中国市场销售的iPhone机型中,搭载长江存储的NAND闪存芯片,以此破解当前存储芯片涨价带来的盈利困境。自去年下半年起,全球内存与存储芯片进入涨价周期,手

热心网友
03.29
为取代三星SK海力士 苹果或将牵手长江存储
iphone
为取代三星SK海力士 苹果或将牵手长江存储

3月29日消息,据行业爆料,苹果计划在面向中国市场销售的iPhone机型中,搭载长江存储的NAND闪存芯片,以此破解当前存储芯片涨价带来的盈利困境。自去年下半年起,全球内存与存储芯片进入涨价周期,手

热心网友
03.29
剪映素材包取消教程:3步教你删除不需要的附加素材
电脑教程
剪映素材包取消教程:3步教你删除不需要的附加素材

近年来,手机短视频迅速走红,已深度渗透进大众的日常生活中,成为人们表达自我、记录生活的重要方式。在欣赏他人精良制作的短视频之余,越来越多用户也开始尝试用手机拍摄并剪辑属于自己的原创

热心网友
03.29
360极速浏览器下载故障?三步轻松修复文件无法下载
手机教程
360极速浏览器下载故障?三步轻松修复文件无法下载

在使用 360 极速浏览器时,有时会遇到无法下载文件的情况,这确实会给我们带来一些困扰。别着急,下面就为您介绍几种常见的解决方法。检查网络连接首先,确保您的设备已成功连接到稳定的网

热心网友
03.29
小米智驾显威力,130km/h成功紧急避让防止追尾
编程语言
小米智驾显威力,130km/h成功紧急避让防止追尾

3月29日消息,日前,一位小米YU7车主发视频称,感谢小米汽车救了自己一命。车主表示,当时自己在高速上打开了辅助驾驶,车速设置在130km h。期间,他驾车分心了没看路,前方出现了三角警示牌也没有注

热心网友
03.29