首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
阿里千问重磅升级:性能对标GPT-5.2、Gemini 3 Pro

阿里千问重磅升级:性能对标GPT-5.2、Gemini 3 Pro

热心网友
87
转载
2026-01-27

1月26日,阿里正式推出千问旗舰推理模型Qwen3-Max-Thinking,在多项权威评测中创造了全球新纪录。其性能表现可与GPT-5.2、Gemini 3 Pro等顶尖模型相媲美,成为迄今为止最接近国际顶尖水平的国内最强AI大模型。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

通过极致的总参数量扩展、强化学习训练和推理计算规模提升,千问新模型实现了性能的大幅飞跃。它在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多个关键性能基准测试中刷新了全球纪录。

阿里千问最强模型重磅亮相:性能媲美GPT-5.2、Gemini 3 Pro

Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超过万亿(1T),预训练数据量高达36T Tokens。

此前,预览版Qwen3-Max-Thinking就已在数学推理测试AIME 25和HMMT 25中斩获国内首个双满分,其推理能力令人惊艳。在此基础之上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking的性能。

在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了多项最佳表现(SOTA)纪录,整体性能足以比肩GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro。

在关键的模型推理能力提升方面,千问新模型采用了一种全新的测试时扩展机制,在提升推理性能的同时也更加经济高效。

业界普遍的推理时计算,只是简单地增加并行推理路径,重复推导已知结论,导致推理效率低下。而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

基于这一推理技术创新,千问的推理性能和推理效率均显著提升。例如,在启用工具的“人类最后的测试”HLE中,千问获得58.3分,大幅超过GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,创下了当前所有模型的最高分纪录。

面向即将到来的智能体时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。

具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能地结合工具进行思考的能力。

这种自适应的工具调用能力可在QwenChat上完整体验。模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供如专业人士水平的回答,更合用户心意、更智能、更流畅;同时,模型的幻觉也大为降低,为解决真实复杂任务打下基础。

目前,开发者能在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。

来源:https://m.mydrivers.com/newsview/1100642.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

林俊杰离职后,首次发布长篇告别自述
科技数码
林俊杰离职后,首次发布长篇告别自述

新京报贝壳财经讯(记者罗亦丹)3月26日,在本月初离职,广受科技圈关注的原阿里千问技术负责人林俊旸在社交账号发布了一篇名为From "Reasoning " Thinking to "Agentic "

热心网友
03.27
阿里千问上车红旗汽车:一句话智能指挥座舱各项功能
编程语言
阿里千问上车红旗汽车:一句话智能指挥座舱各项功能

3月26日消息,阿里AI助手千问正式接入红旗汽车智能座舱,这是继AI眼镜之后,千问进一步拓展至更高复杂度的车载场景,加速进入物理世界,迈向全场景AI助手。据悉,千问很快就会首次搭载在红旗HS6 PH

热心网友
03.26
一汽红旗携手阿里云:造会办事的智能汽车座舱
科技数码
一汽红旗携手阿里云:造会办事的智能汽车座舱

来源:环球网【环球网科技综合报道】3月26日,一汽红旗宣布智能座舱系统“灵犀座舱”在业内首次成功接入千问智能体,将首发搭载于红旗HS6 PHEV,届时在车内可实现多模糊意图的精准识别与复杂路径的科学

热心网友
03.26
试驾红旗汽车:从用户1000个疑问中找到实际答案
科技数码
试驾红旗汽车:从用户1000个疑问中找到实际答案

3月26日,阿里AI助手千问被接入红旗汽车智能座舱,即将首发搭载于红旗HS6 PHEV。据介绍,千问上车后,用户只需一句话即可完成多目标任务。系统可同时理解导航、用餐与时间约束等多重需求,并结合实时

热心网友
03.26
实测千问AI新功能:打车技能一句话高效体验
科技数码
实测千问AI新功能:打车技能一句话高效体验

那个春节前因为奶茶免单爆火的千问App,现在又多了项新功能。3月23日,阿里千问宣布上线打车功能,用户只要在千问App中输入一句话,AI就会帮你搞定。小雷打开了千问App实际体验了下,发现这个功能的

热心网友
03.26

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

8TB NVMe固态硬盘性价比实测:一克单价已超黄金
电脑教程
8TB NVMe固态硬盘性价比实测:一克单价已超黄金

1 月 17 日消息,科技媒体 Tom s Hardware 昨日(1 月 16 日)发布博文,报道称受人工智能芯片短缺影响,大容量 NVMe 固态硬盘(SSD)价格飙升,部分型号的“重量单价”已

热心网友
03.28
菜鸟包裹到站通知设置指南:轻松开启App提醒
手机教程
菜鸟包裹到站通知设置指南:轻松开启App提醒

在日常生活中,我们常常会通过网购来满足各种需求。当包裹发出后,大家都希望能第一时间知晓包裹的动态,特别是包裹到站的消息,以便及时取件。而菜鸟app就能轻松帮我们实现这一需求,下面就

热心网友
03.28
携程订票官网入口:可靠订票渠道与使用指南
游戏攻略
携程订票官网入口:可靠订票渠道与使用指南

携程订票网正式入口:https: www ctrip com ,携程订票网正式入口是携程旅行网的最新核心访问渠道,为全球用户提供一站式全流程的在线旅行服务,依托强大的技术后台,为用户提供精准比价、

热心网友
03.28
5部以为是烂剧的黑马好剧,熬夜追到停不下来
娱乐
5部以为是烂剧的黑马好剧,熬夜追到停不下来

1、《穿越火线》目前看过最好看的三次元电竞剧,游戏场面也是高度还原,还穿插着爱情,魂游,时间墙等元素,相当紧凑没有一点水分。剧里电竞场面高度还原,地图、枪械、战术贴合CF原作,比赛节奏紧张燃爽;群像

热心网友
03.28
PPT动画教程:设置图片逐张出现效果的详细步骤
电脑教程
PPT动画教程:设置图片逐张出现效果的详细步骤

要实现PPT图片逐张显示,需为每张图片单独设置“进入”动画并设为“单击时”触发;或用触发器绑定按钮控制;或采用分页+“平滑切换”方式。如果您在制作PPT时希望图片按顺序逐张显示,而

热心网友
03.28