游乐游手机版
首页/业界动态/文章详情

阿里千问重磅升级:性能对标GPT-5.2、Gemini 3 Pro

时间:2026-01-27 10:36
1月26日消息,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5 2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最

1月26日,阿里正式推出千问旗舰推理模型Qwen3-Max-Thinking,在多项权威评测中创造了全球新纪录。其性能表现可与GPT-5.2、Gemini 3 Pro等顶尖模型相媲美,成为迄今为止最接近国际顶尖水平的国内最强AI大模型。

通过极致的总参数量扩展、强化学习训练和推理计算规模提升,千问新模型实现了性能的大幅飞跃。它在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多个关键性能基准测试中刷新了全球纪录。

阿里千问最强模型重磅亮相:性能媲美GPT-5.2、Gemini 3 Pro

Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超过万亿(1T),预训练数据量高达36T Tokens。

此前,预览版Qwen3-Max-Thinking就已在数学推理测试AIME 25和HMMT 25中斩获国内首个双满分,其推理能力令人惊艳。在此基础之上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking的性能。

在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了多项最佳表现(SOTA)纪录,整体性能足以比肩GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro。

在关键的模型推理能力提升方面,千问新模型采用了一种全新的测试时扩展机制,在提升推理性能的同时也更加经济高效。

业界普遍的推理时计算,只是简单地增加并行推理路径,重复推导已知结论,导致推理效率低下。而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

基于这一推理技术创新,千问的推理性能和推理效率均显著提升。例如,在启用工具的“人类最后的测试”HLE中,千问获得58.3分,大幅超过GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,创下了当前所有模型的最高分纪录。

面向即将到来的智能体时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。

具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能地结合工具进行思考的能力。

这种自适应的工具调用能力可在QwenChat上完整体验。模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供如专业人士水平的回答,更合用户心意、更智能、更流畅;同时,模型的幻觉也大为降低,为解决真实复杂任务打下基础。

目前,开发者能在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。

来源:https://m.mydrivers.com/newsview/1100642.html
上一篇男子投喂野生狐狸被咬手:好奇喂犬粮遭不松口 下一篇阿里千问最强模型重磅亮相,性能比肩GPT-5与Gemini
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
英国监管要求苹果放宽App Store支付与NFC限制
业界动态 · 2026-07-01

英国监管要求苹果放宽App Store支付与NFC限制

英国反垄断监管机构竞争与市场管理局拟对苹果应用商店实施重大改革,要求取消支付限制,允许开发者引导用户使用外部支付,并开放近场通信技术接口。苹果公司强烈反对,称此举将严重削弱用户隐私和安全保障。

苹果加大打击力度 iPhone 18 Pro泄露视频被紧急下架
业界动态 · 2026-07-01

苹果加大打击力度 iPhone 18 Pro泄露视频被紧急下架

塔塔电子遭网络攻击致iPhone18Pro跌落测试视频泄露,社交平台X上相关内容被迅速删除,发布账号被封停。科技媒体也撤下报道。路透社称暗网流传机密文件含苹果水印,苹果已与塔塔共同调查泄露源头。

储能电站建设成本首次低于燃气火电
业界动态 · 2026-07-01

储能电站建设成本首次低于燃气火电

2025年储能电站度电成本降至78美元 兆瓦时,首次低于燃气电站的102美元,与煤电持平。电池产能过剩与电动汽车市场减速推动价格下跌。燃气电站因人工智能需求导致涡轮机供不应求,成本上涨16%。预计2026年储能成本将进一步下降8%。

特斯拉FSD V14无差别上车 400万车主升级
业界动态 · 2026-07-01

特斯拉FSD V14无差别上车 400万车主升级

特斯拉向搭载HW3硬件的约400万老车型推送FSDV14Lite,通过知识蒸馏将数百亿参数模型压缩至15%大小,实现强化学习、全场景响应优化和泊车功能升级,体验接近AI4车型,但仍为有监督L2级辅助驾驶,无法实现无监督自动驾驶。

武汉2026年启动私人充电桩车网互动电价改革
业界动态 · 2026-07-01

武汉2026年启动私人充电桩车网互动电价改革

近期备受关注的话题是,武汉自2026年7月起正式启动车网互动价格机制改革。这意味着,新能源车主利用自家私人充电桩即可参与电力交易,实现“充电即储能、放电即售电”的双向互动。通过峰谷电价差,车主每向电网输送一度电,大约能获得0 5元的净收益。相比此前只能在指定公共充电站操作,这一模式显然便捷了许多。