阿里千问最新推理模型亮相：多项性能破纪录

时间：2026-01-27 10:49

新京报贝壳财经讯（记者罗亦丹）1月26日晚间，阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking，在多项关键性能基准测试中，千问表现超过了GPT-5 2、Claude Opus 4 5

新京报贝壳财经讯（记者罗亦丹）1月26日晚间，阿里巴巴正式推出千问旗舰推理模型Qwen3-Max-Thinking。在多项关键性能基准测试中，千问模型的表现超越了GPT-5.2、Claude Opus 4.5及Gemini 3 Pro等顶尖模型，刷新了全球纪录，进一步拓展了人工智能系统的推理性能边界。

通过扩展总参数量、强化学习以及推理计算规模，千问新模型实现了性能的大幅跃升，在科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多个关键基准测试中均创下全球最佳成绩。

具体来看，在核心的模型推理能力提升方面，千问新模型采用了全新的测试时扩展机制。这种机制在提升推理性能的同时，还显著提高了效率。当前业界普遍采用的推理时计算，大多只是简单增加并行推理路径，重复推导已知结论，导致推理效率低下。而千问采用的这项新技术，能够对之前推理的结果进行“经验提炼”式的提纯，并据此进行多轮自我迭代，在相同的上下文语境中实现更高效的推理计算，从而获得更智能的推理结果。基于这一推理技术创新，千问的推理性能和推理效率均得到大幅提升。例如，在启用工具的“人类最后的测试”HLE中，千问获得58.3分，大幅超越GPT-52-Thinking的45.5分以及Gemini 3 Pro的45.8分，录得当前所有模型中的最高分。

阿里巴巴方面表示，Qwen3-Max-Thinking的总参数量超过万亿，经过了更大规模的强化学习后训练，并通过推理技术的一系列创新，最终实现了模型性能的跨越式增长。该模型还大幅增强了自主调用工具的原生Agent能力，使得模型能够像专业人士一样，边使用工具边进行思考。同时，模型的幻觉问题也得到显著抑制，为解决真实世界的复杂任务奠定了坚实基础。目前，普通用户可通过千问PC端及网页端试用新模型，千问APP也即将接入，所有用户均可免费体验。

编辑陈莉校对杨利

来源：https://www.163.com/dy/article/KK998IK8055284JB.html