近日,阿里巴巴低调发布了全新大语言模型——Qwen3-Max-Thinking。该模型参数量级首次突破万亿,其预训练数据规模更是达到了前所未有的36万亿tokens,展现出强大的基础能力。
在涵盖语言理解、数学推理、代码编程及工具调用等维度的19项国际权威基准测试中,Qwen3-Max-Thinking的综合表现已能与GPT-5.2-Thinking、Claude-Opus-4.5以及Gemini 3 Pro等全球顶级AI模型正面竞争。
尤为突出的是,它在其中四项关键评测中力压群雄,创造了新的世界纪录,夺得榜首。这四项测试分别是:衡量中文知识与理解能力的C-Eval、检验高强度数学推理的HMMT Nov 2025、评估工具增强推理的HLE (w/ tools),以及反映人类偏好的Arena-Hard v2。
C-Eval测试夺冠,标志着该模型在中文语义理解、知识库检索与信息表达方面实现了质的飞跃,成功超越国外顶尖模型。这意味着它在处理中文用户查询时,能更精准地把握问题核心,并依照中文的思维逻辑进行有效拆解与分析。结合其在Arena-Hard测试中的优异表现,面对相同的问题输入,Qwen3-Max-Thinking能够生成更全面、更精炼且更符合人类表达习惯的高质量回答。
HMMT Nov 25测试基于哈佛-麻省理工数学锦标赛的题目集,专门用于挑战模型的高难度数学推理与解题能力。在此项测试中排名第一,表明模型在面对复杂条件推导和多步骤逻辑推理时,稳定性和可靠性显著增强,其通过提示词生成正确代码的逻辑容错率也更高。
而HLE(高难长程推理)测试获得第一,对普通用户而言具有更直接的实用价值。这代表模型作为“AI智能体”的自主任务规划与执行能力更强了,它更懂得如何拆解复杂目标,并智能地调用各类工具(如计算器、搜索引擎、代码解释器等)来逐步解决问题。
Qwen3-Max-Thinking这一次的创新是什么?
本次模型升级的核心突破,主要聚焦于以下两大关键技术。
1、自适应工具调用的能力
让大模型调用外部工具并非新概念,早期的Function Call功能已有所涉及。但传统模式下,工具的“选择权”与“触发权”很大程度上掌握在用户手中,模型更多是被动响应指令。Qwen3-Max-Thinking则将主动权交给了模型自身。
如果说GPT的革命性在于教会了模型理解并遵循人类指令,那么千问的这一步进化,则是教会了模型自主判断在何种情境下应选用何种工具,并针对“工具使用效果”进行了专项优化训练。
根据官方技术报告,以往大模型在使用搜索工具时常见的“幻觉”(即编造不存在的信息)和“上下文遗忘”等长期痛点,在此次升级中也得到了针对性的缓解与改善。
2、测试时扩展技术
这项技术可通俗理解为:让模型将有限的“计算力”智能聚焦于真正尚未解决的难题上。对于已经清晰推导出的结论,模型不会重复计算,从而避免资源浪费。
其背景在于,传统的增强推理方法(如思维链增强)往往采用并行多个推理路径再择优的策略。但这种方式存在明显弊端——不同的推理路径常常包含大量重复的中间步骤,导致计算资源被低效消耗。
Qwen3-Max-Thinking的创新策略是摒弃无限制的“任务多开”。它严格限制了并行推理任务的数量,转而采用“少量并行+深度多轮迭代”的方法,力求将每个推理路径做深、做透。由此节省下的巨大计算预算,则被重新分配给“经验提取”与“自我反思”模块。
通过这一机制,模型实现了对上下文信息更高效率的利用。此前,DeepSeek的Enigma机制在解决通识查询难题上表现出色,而此次Qwen则在复杂推理的效率优化上取得了重要进展。
其效果在多项高难度测试中得到了直接体现,在消耗相同Token数量的前提下,模型性能获得显著提升: GPQA(研究生级别问答/高难知识推理):90.3 → 92.8(+2.5) HLE(高难长程推理):34.1 → 36.5(+2.4) LiveCodeBenchv6(真实世界编码能力):88.0 → 91.4(+3.4) IMO-AnswerBench(国际奥数风格推理/答案准确性):89.5 → 91.5(+2.0) HLE(w/ tools,带工具的高难推理):55.8 → 58.3(+2.5)
长程推理分数的提升,意味着模型在处理冗长、复杂的逻辑链条时,更不易出现偏离主题或前后矛盾的情况。真实编程能力的增强直接提升了代码生成的效率与质量。再加上类似解决奥数题所需的精细推理能力,以及更娴熟的工具使用技巧,该模型协助人类完成各类复杂任务的整体能力确实迈上了一个新台阶。
来一次实测吧
仅看评测数据可能不够直观,下面我们通过实际场景测试来感受其能力。
在中文理解与生成部分,我们设定了一个高难度社交场景:“请帮我撰写一条回复朋友借钱请求的消息。要求:语气真诚而坚定,不显怯懦;结构分为3段,每段不超过2句话;禁止使用‘但是’‘抱歉’‘可能’‘不方便’这些词语;必须包含一个非借钱形式的替代性帮助方案。”
我们测试了多款国内主流大模型,Qwen3-Max-Thinking与Kimi的表现明显更为出色。在这种极其考验情商与语言艺术的“拒绝借钱”场景下,即使是国际顶尖模型,其回复也往往显得较为直接或生硬。
在联网搜索、数据计算与中文场景结合的综合能力部分,我们给出了另一个任务:“假设今天是2026年1月27日。请你使用联网搜索功能确认:2026年中国下一个公共假期的具体名称与日期,并注明引用来源。然后计算:从2026年1月27日到该假期开始还有多少天(按自然日计算)。最后,请用两句话简要建议:这个假期适合开展哪些‘低成本’活动(请勿撰写旅游攻略)。”
在联网搜索与日期计算环节,几款模型的表现旗鼓相当。但在最后关于“低成本活动”的建议创意上,差异便显现出来。例如,有的模型可能给出“合影、吃火锅年夜饭”等建议,而Qwen3-Max-Thinking则倾向于提供“家庭一起包饺子、张贴春联、通过视频向亲友拜年”等更具中国文化特色与节日氛围的建议,显示出更高的文化契合度与场景理解深度。
当前的大模型竞技场可谓日新月异。本文尚未完稿之际,DeepSeek的OCR2、Kimi的K2.5等新一代模型又已接连发布,技术迭代速度令人目不暇接。
