首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
阿里深夜发布最强千问推理模型,性能比肩GPT-5.2

阿里深夜发布最强千问推理模型,性能比肩GPT-5.2

热心网友
34
转载
2026-01-27

阿里系模型攻坚提速。1月26日晚,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下多项权威评测全球新纪录,性能媲美GPT-5.2、Gemini+3+Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

据了解,Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超万亿(1T),预训练数据量高达36T+Tokens。此前,预览版Qwen3-Max-Thinking斩获数学推理AIME+25和HMMT+25的国内首个双满分,推理性能已令人惊艳;在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能:在覆盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了多项最佳表现(SOTA)纪录,整体性能可媲美+GPT-5.2-Thinking-xhigh、Claude+Opus+4.5+和+Gemini+3+Pro+。

据悉,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time+Scaling)机制,使得推理性能提升的同时还更经济。

目前业界普遍在推理时会遇到以下难题:只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下。据悉,千问采用新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。基于这一推理技术创新,千问推理性能和推理效率大为提升,比如在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5-Thinking的45.5、Gemini+3+Pro的45.8,录得当前所有模型的最高分。

HLE测试中千问得分58.3,超过GPT-5.2-Thinking。

另外,面向即将到来的智能体Agent时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅;同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。

目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。

采写:南都N视频记者+林文琪

来源:https://www.163.com/dy/article/KK91FIDB05129QAF.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里千问最新推理模型亮相:多项性能破纪录
科技数码
阿里千问最新推理模型亮相:多项性能破纪录

新京报贝壳财经讯(记者罗亦丹)1月26日晚间,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,在多项关键性能基准测试中,千问表现超过了GPT-5 2、Claude Opus 4 5

热心网友
01.27
编辑实战:如何将工作难题转化为核心课题
科技数码
编辑实战:如何将工作难题转化为核心课题

刘涓溪 纵观马大为的科研人生,从优化反应实验到寻找药物合成最优解,他一直都在和医学难题较劲。在他看来,把医学难题变成科研课题,是科学家必须承担的使命。 科学研究不是无本之木,立足实际更能找到科研的方

热心网友
01.27
阿里深夜发布最强千问推理模型,性能比肩GPT-5.2
科技数码
阿里深夜发布最强千问推理模型,性能比肩GPT-5.2

阿里系模型攻坚提速。1月26日晚,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5 2、Gemini 3 Pro,成为迄今为止最接近国

热心网友
01.27

最新APP

凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26

热门推荐

vivo Y500s与Y60m对比:双机深度解析,帮你选出最适合的一款
网络安全
vivo Y500s与Y60m对比:双机深度解析,帮你选出最适合的一款

如果你最近关注过手机市场,应该知道一件事:内存涨价了,而且涨得挺狠,相比之前,同配置的内存成本已经涨了近1000块。这对中低端机型的冲击最明显,本来利润就薄,成本一涨,要么涨价,要么砍配置,对于想换

热心网友
03.30
PPT演示模式鼠标消失怎么办?3种方法快速唤回光标
电脑教程
PPT演示模式鼠标消失怎么办?3种方法快速唤回光标

鼠标指针在PPT演示中消失通常因“指针选项”设为隐藏,可通过右键菜单选“可见”、按Ctrl+A快捷键、取消“自动隐藏鼠标指针”设置、Alt+Tab切换窗口重启渲染,或检查演示者视图

热心网友
03.30
豪威集团2025年业绩亮眼:营收净利双增,半导体业务全面开花
科技数码
豪威集团2025年业绩亮眼:营收净利双增,半导体业务全面开花

豪威集团近日发布最新财务公告,显示2025年业绩实现显著增长。全年营业收入达288 55亿元,较上年提升12 14%;净利润突破40 45亿元,同比增长21 73%。这一成绩主要得益于半导体设计业务

热心网友
03.30
乐聚建成国内首条年产万台人形机器人产线
科技数码
乐聚建成国内首条年产万台人形机器人产线

3月29日,国内首条年产能万台级的人形机器人自动化产线在广东正式投入使用,人形机器人规模化量产能力取得重大突破。该产线年产能突破一万台,可实现每30分钟下线一台人形机器人,高效满足市场规模化交付需求

热心网友
03.30
华羿机器人登陆港交所市值破百亿,领跑国内国际市场
AI
华羿机器人登陆港交所市值破百亿,领跑国内国际市场

今日,华沿机器人正式在港交所挂牌上市,开启了其资本市场的新征程。此次上市,华沿机器人发售价定为每股17 00港元,折合人民币约14 99元。开盘时,股价为16 8港元,即人民币14 82元,而收盘价

热心网友
03.30