首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里千问斩获全球AI顶会最佳论文,中国唯一获奖研究

阿里千问斩获全球AI顶会最佳论文,中国唯一获奖研究

热心网友
76
转载
2025-11-28

11月28日,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队的最新研究成果从全球2万多篇投稿论文中脱颖而出,被评为最佳论文,成为唯一获得该奖项的中国团队。该论文首次在业内揭示了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的发展。

中国唯一!阿里千问斩获全球AI顶会最佳论文

阿里通义千问研究成果被评为NeurIPS 2025最佳论文

NeurIPS是人工智能领域影响力最大的顶会之一,该会议诞生了Transformer、AlexNet等里程碑式研究成果。今年,谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖科技公司和机构共有2万多篇论文投稿,仅有约25%的论文被接收,而最佳论文仅4篇,入选概率不及万分之一,代表了目前全球人工智能领域最有价值和影响力的研究。

2017年,谷歌在NeurIPS发表的论文首次提出Transformer模型架构和自注意力机制,这一研究让AI能够像人类一样具备有选择性地关注关键信息的能力,成为当下大模型研究的基础。尽管现在大模型在很多领域已经取得接近甚至超越人类的表现,但现有注意力机制仍存在诸多局限,例如当下大模型会因为过度关注特定信息而导致对其它重要信息的忽略或处理偏差,这些局限性极大地影响了模型性能和训练稳定性,为此业界开始探索对注意力进行优化的新方案。

门控机制被认为是模型的"智能闸门",可以帮助模型过滤无效信息并提升模型性能。近年来,AlphaFold2、Forgetting Transformer等学术界和工业界模型开始尝试将门控和注意力机制结合。但业界尚未破解门控在注意力中发挥作用的内在原因,也缺少大规模实践的经验。

此次,通义千问研究团队通过在1.7B稠密模型(Dense)与15B混合专家模型(MoE)上进行了数十组实验,单组实验训练最多超过 3.5 万亿 tokens,首次清晰揭示了门控注意力背后的作用原理,并全面展示使用该方案的最佳方式。

实验结果显示,对各注意力头的输出进行门控,是提升模型性能最有效的方式。使用该方式,在引入额外1%参数的情况下,可实现0.2以上困惑度下降、MMLU基准测评2个点的提升。研究还发现,该技术还能在更大规模的模型训练上实现更好的性能。

中国唯一!阿里千问斩获全球AI顶会最佳论文

使用论文方法,在引入额外1%参数的情况下,可以实现0.2以上的困惑度下降、MMLU基准测评2个点的提升

目前,该研究成果已应用于Qwen3-Next模型,并显著提升模型的性能与鲁棒性,相关技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会指出:"这项工作将被广泛应用,并极大推动AI研究人员对大语言模型中注意力机制的理解。"

通义千问团队表示:"对门控注意力机制的深入理解,不仅为大语言模型架构设计提供了新思路,也为构建更稳定、更高效、更可控的大模型奠定了基础。"据悉,目前阿里千问已开源300多款模型,覆盖全模态、全尺寸,全球下载量突破7亿次,衍生模型超过18万个,位居全球第一。

来源:https://www.leiphone.com/category/industrynews/r7Vng3L1OYiEn2Sh.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里万相大模型开源六天登顶全球榜首
AI
阿里万相大模型开源六天登顶全球榜首

阿里云万相大模型开源六天即登顶HuggingFace双榜,下载量破百万。其14B版本性能强劲,1 3B版本便于本地部署,并在VBench评测中领先。团队扩大生态兼容性,通过通义千问与万相全面开源,构建全模态、全尺寸开源矩阵,降低开发门槛,推动技术普及。

热心网友
05.16
阿里云押注Coding AI的战略布局与未来规划解析
AI
阿里云押注Coding AI的战略布局与未来规划解析

阿里云开源代码大模型Qwen3-Coder,其代码能力对标国际顶尖模型,成本与开放性优势显著。该举措旨在抢占编程AI赛道,通过“模型开源+云服务”模式降低使用门槛,构建从生态引流到云业务转化的商业闭环,强化工程化落地能力。

热心网友
05.16
专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell
AI
专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell

阿里云与中山大学团队开发了深度学习模型“LucaProt”,用于高效识别RNA病毒。该模型基于Transformer架构,结合蛋白质序列与结构特征,在外部验证中召回率达97 4%,假阳性率仅0 023%。通过云计算与AI技术,团队从海量数据中一次性发现超过16万种新RNA病毒,显著拓展了病毒多样性认知,为病毒学研究和流行病预警提供了新工具。

热心网友
05.16
AgentRun新手教程 5分钟完成注册并运行首个智能体
业界动态
AgentRun新手教程 5分钟完成注册并运行首个智能体

如果开发一个智能体(Agent)只需要5分钟,那么今天的关键问题就不再是“技术能否实现”,而是“你想用它解决什么业务场景”。 Agent 上线,本不该如此复杂 在传统的开发模式下,构建一个可用的智能体是一项繁重的系统工程:你需要挑选合适的模型、搭建开发框架、部署服务、管理会话状态、调试流式接口、接入

热心网友
05.14
阿里云团队版Token Plan上线支持多坐席分配与管理
业界动态
阿里云团队版Token Plan上线支持多坐席分配与管理

5月11日,阿里云正式推出“团队版Token Plan”服务。这项服务并非简单的模型调用接口,而是一套专为企业及开发团队设计的大模型订阅与集中管理解决方案,旨在优化AI资源的规模化使用体验。 该计划的核心优势在于“团队协作”与“灵活配置”。它集成了Qwen3 6、Kimi-K2 6、GLM-5 1、

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币巨量流出CEX 24小时超5740枚 市场抄底信号显现
web3.0
比特币巨量流出CEX 24小时超5740枚 市场抄底信号显现

过去24小时全球主要交易所比特币流向分化明显,整体净流出5740 82枚。其中CoinbasePro流出约5457枚,币安、Gemini分别流出1023枚和504枚;而OKX则逆势录得约530枚净流入。

热心网友
05.18
魔兽世界恶魔的气息任务全流程攻略与完成步骤详解
游戏攻略
魔兽世界恶魔的气息任务全流程攻略与完成步骤详解

卡拉赞的“恶魔的气息”任务需向大法师奥图鲁斯领取,随后击败玛克扎尔王子并回提交还。任务奖励包括金币、经验与声望。

热心网友
05.18
魔力宝贝狗洞位置详解与前往路线指南
游戏攻略
魔力宝贝狗洞位置详解与前往路线指南

《魔力宝贝》中“狗洞”即“奇怪的洞窟”,位于亚留特村西南方向黄色传送石处,是12至20级玩家高效练级地点。前往路线为:从法兰城至伊尔村,向北进入哈巴鲁东边洞窟击败“熊男”,穿越后抵达亚留特村,再向西南探索即可找到入口。洞内怪物等级较高,建议携带“风地”属性水晶提升生存能力。

热心网友
05.18
贾跃亭获7000万美元融资 将推进多年造车计划
业界动态
贾跃亭获7000万美元融资 将推进多年造车计划

时隔七年,贾跃亭以CEO身份重掌法拉第未来(FF)帅印,并成功为公司注入了关键的发展动力。近期,FF累计完成了高达7000万美元的机构融资。这笔至关重要的资金,被贾跃亭定位为驱动公司机器人业务实现第一阶段战略目标的“核心粮草”。 随着资金与团队就位,贾跃亭的信心显著增强。他公开立下目标:将用两年时间

热心网友
05.18
原神修复水道任务攻略法沙利亚的狂想曲通关详解
游戏攻略
原神修复水道任务攻略法沙利亚的狂想曲通关详解

任务需修复两条水道。首先跟随指引找到NPC并进入幻境,使用号角对准壁画激活飞鸟幻影,触碰并跟随其路径即可修复第一条水道。第二条水道位于洞xue内,跟随萤火虫找到入口,重复使用号角并借助弹跳水母到达高处,跟随飞鸟完成修复。完成后可获得奖励并推进剧情。

热心网友
05.18