阿里千问最强模型发布四项基准测试超越GPT与Claude

时间：2026-05-28 08:22

阿里发布Qwen3-Max-Thinking模型，参数规模达万亿，预训练数据36Ttokens。在19项基准测试中表现媲美GPT-5 2-Thinking等顶尖模型，并在C-Eval等4项测试中刷新全球纪录。模型在中文理解、数学推理、工具调用及任务规划方面能力显著提升，通过自适应工具调用与测试时扩展技术优化了资源利用与推理效率。多项高难度测试分数明显进步，长

近日，阿里巴巴低调发布了全新大语言模型——Qwen3-Max-Thinking。该模型参数量级首次突破万亿，其预训练数据规模更是达到了前所未有的36万亿tokens，展现出强大的基础能力。

在涵盖语言理解、数学推理、代码编程及工具调用等维度的19项国际权威基准测试中，Qwen3-Max-Thinking的综合表现已能与GPT-5.2-Thinking、Claude-Opus-4.5以及Gemini 3 Pro等全球顶级AI模型正面竞争。

尤为突出的是，它在其中四项关键评测中力压群雄，创造了新的世界纪录，夺得榜首。这四项测试分别是：衡量中文知识与理解能力的C-Eval、检验高强度数学推理的HMMT Nov 2025、评估工具增强推理的HLE (w/ tools)，以及反映人类偏好的Arena-Hard v2。

C-Eval测试夺冠，标志着该模型在中文语义理解、知识库检索与信息表达方面实现了质的飞跃，成功超越国外顶尖模型。这意味着它在处理中文用户查询时，能更精准地把握问题核心，并依照中文的思维逻辑进行有效拆解与分析。结合其在Arena-Hard测试中的优异表现，面对相同的问题输入，Qwen3-Max-Thinking能够生成更全面、更精炼且更符合人类表达习惯的高质量回答。

HMMT Nov 25测试基于哈佛-麻省理工数学锦标赛的题目集，专门用于挑战模型的高难度数学推理与解题能力。在此项测试中排名第一，表明模型在面对复杂条件推导和多步骤逻辑推理时，稳定性和可靠性显著增强，其通过提示词生成正确代码的逻辑容错率也更高。

而HLE（高难长程推理）测试获得第一，对普通用户而言具有更直接的实用价值。这代表模型作为“AI智能体”的自主任务规划与执行能力更强了，它更懂得如何拆解复杂目标，并智能地调用各类工具（如计算器、搜索引擎、代码解释器等）来逐步解决问题。

Qwen3-Max-Thinking这一次的创新是什么？

本次模型升级的核心突破，主要聚焦于以下两大关键技术。

1、自适应工具调用的能力

让大模型调用外部工具并非新概念，早期的Function Call功能已有所涉及。但传统模式下，工具的“选择权”与“触发权”很大程度上掌握在用户手中，模型更多是被动响应指令。Qwen3-Max-Thinking则将主动权交给了模型自身。

如果说GPT的革命性在于教会了模型理解并遵循人类指令，那么千问的这一步进化，则是教会了模型自主判断在何种情境下应选用何种工具，并针对“工具使用效果”进行了专项优化训练。

根据官方技术报告，以往大模型在使用搜索工具时常见的“幻觉”（即编造不存在的信息）和“上下文遗忘”等长期痛点，在此次升级中也得到了针对性的缓解与改善。

2、测试时扩展技术

这项技术可通俗理解为：让模型将有限的“计算力”智能聚焦于真正尚未解决的难题上。对于已经清晰推导出的结论，模型不会重复计算，从而避免资源浪费。

其背景在于，传统的增强推理方法（如思维链增强）往往采用并行多个推理路径再择优的策略。但这种方式存在明显弊端——不同的推理路径常常包含大量重复的中间步骤，导致计算资源被低效消耗。

Qwen3-Max-Thinking的创新策略是摒弃无限制的“任务多开”。它严格限制了并行推理任务的数量，转而采用“少量并行+深度多轮迭代”的方法，力求将每个推理路径做深、做透。由此节省下的巨大计算预算，则被重新分配给“经验提取”与“自我反思”模块。

通过这一机制，模型实现了对上下文信息更高效率的利用。此前，DeepSeek的Enigma机制在解决通识查询难题上表现出色，而此次Qwen则在复杂推理的效率优化上取得了重要进展。

其效果在多项高难度测试中得到了直接体现，在消耗相同Token数量的前提下，模型性能获得显著提升： GPQA（研究生级别问答/高难知识推理）：90.3 → 92.8（+2.5） HLE（高难长程推理）：34.1 → 36.5（+2.4） LiveCodeBenchv6（真实世界编码能力）：88.0 → 91.4（+3.4） IMO-AnswerBench（国际奥数风格推理/答案准确性）：89.5 → 91.5（+2.0） HLE（w/ tools，带工具的高难推理）：55.8 → 58.3（+2.5）

长程推理分数的提升，意味着模型在处理冗长、复杂的逻辑链条时，更不易出现偏离主题或前后矛盾的情况。真实编程能力的增强直接提升了代码生成的效率与质量。再加上类似解决奥数题所需的精细推理能力，以及更娴熟的工具使用技巧，该模型协助人类完成各类复杂任务的整体能力确实迈上了一个新台阶。

来一次实测吧

仅看评测数据可能不够直观，下面我们通过实际场景测试来感受其能力。

在中文理解与生成部分，我们设定了一个高难度社交场景：“请帮我撰写一条回复朋友借钱请求的消息。要求：语气真诚而坚定，不显怯懦；结构分为3段，每段不超过2句话；禁止使用‘但是’‘抱歉’‘可能’‘不方便’这些词语；必须包含一个非借钱形式的替代性帮助方案。”

我们测试了多款国内主流大模型，Qwen3-Max-Thinking与Kimi的表现明显更为出色。在这种极其考验情商与语言艺术的“拒绝借钱”场景下，即使是国际顶尖模型，其回复也往往显得较为直接或生硬。

在联网搜索、数据计算与中文场景结合的综合能力部分，我们给出了另一个任务：“假设今天是2026年1月27日。请你使用联网搜索功能确认：2026年中国下一个公共假期的具体名称与日期，并注明引用来源。然后计算：从2026年1月27日到该假期开始还有多少天（按自然日计算）。最后，请用两句话简要建议：这个假期适合开展哪些‘低成本’活动（请勿撰写旅游攻略）。”

在联网搜索与日期计算环节，几款模型的表现旗鼓相当。但在最后关于“低成本活动”的建议创意上，差异便显现出来。例如，有的模型可能给出“合影、吃火锅年夜饭”等建议，而Qwen3-Max-Thinking则倾向于提供“家庭一起包饺子、张贴春联、通过视频向亲友拜年”等更具中国文化特色与节日氛围的建议，显示出更高的文化契合度与场景理解深度。

当前的大模型竞技场可谓日新月异。本文尚未完稿之际，DeepSeek的OCR2、Kimi的K2.5等新一代模型又已接连发布，技术迭代速度令人目不暇接。

来源：https://juejin.cn/post/7599852579066871823

Claude

上一篇Chatbit AI 功能详解与使用指南 下一篇我用ClaudeCode复刻开发流程从一张图到完整应用

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-05-29

GPT Workspace通过GPT-5强化Google Workspace，文档表格邮件创作效率与智能化提升

GPT Workspace 产品介绍：GPT-5 如何增强 Google Workspace 工作效率如果你每天都在使用 Google Workspace 进行文档撰写、表格处理、邮件沟通和演示制作，一定深有体会：大量重复性的办公任务耗费了宝贵的时间。现在，GPT Workspace 将 GPT-

AI教程 · 2026-05-29

AI助手提升年终总结与周报效率的精准营销策略

适合需求：在信息爆炸的时代，企业所承受的竞争压力几乎覆盖了所有维度，其中营销领域尤为令人困扰。无论是撰写年终总结还是生成周报，精准的营销策略已成为不可或缺的需求——没有谁愿意在庞杂的数据中迷失方向。当我们复盘营销活动时，总会思考：过去哪些数字营销策略真正发挥了效果？哪些内容营销策略有待改进？然而实际

AI教程 · 2026-05-29

Afri Studio 非洲创意工作室

Afri Studio是什么先来聊聊Afri Studio——它是Afri AI团队推出的一款AI媒体创作工作室，目标很明确：把原本高高在上的智能技术拉下神坛，让普通用户也能轻松生成高质量的文本、图像、音频等内容。换句话说，这是一个面向内容创作者、博主、营销人员、艺术家的“AI工具箱”，帮你高效搞定

AI教程 · 2026-05-29

Geniea专注Midjourney提示词优化提升创意生成效率

Geniea产品详解：Midjourney提示优化工具Geniea是一款专注于Midjourney提示词优化的智能平台，致力于帮助创作者快速生成高质量且富有创意的提示方案。无论您需要电影镜头、食品摄影还是汽车广告等场景的提示词，只需输入简单指令，系统便会自动输出优化后的提示文本，大幅提升创作效率。提

AI教程 · 2026-05-29

幼儿园大班毕业典礼方案PPT AI轻松制作精彩回顾

使用情景每年毕业季来临之际，幼儿园大班毕业典礼的筹备工作，总是牵动着众多老师、家长和孩子们的心弦。这不仅仅是一场简单的活动，更是孩子们人生中首个重要的成长仪式，标志着他们告别幼儿时光、迈向新阶段的里程碑。对于家长而言，这也是一次充满感怀的“毕业”，意味着一段陪伴旅程的暂时落幕。如何让这场典礼既温