阿里千问Qwen3-Max推理模型发布:旗舰版性能详解
据智通财经App了解,1月26日,阿里旗下千问系列旗舰推理模型Qwen3-Max-Thinking正式亮相。据悉,Qwen3-Max-Thinking在事实知识、复杂推理、指令遵循、人类偏好对齐以及智能体能力等多个关键维度上均实现了显著提升。在19项权威基准测试中,其性能已能媲美GPT-5.2-Thinking、Claude-Opus-4.5及Gemini 3 Pro等顶尖模型。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
此次推出的Qwen3-Max-Thinking引入了两项核心创新技术:
(1) 自适应工具调用能力,该系统能够按需调用搜索引擎和代码解释器等工具,该能力现已上线Qwen Chat;
(2) 测试时扩展技术,该技术显著提升了模型的推理性能,使其在关键推理基准上超越了Gemini 3 Pro。

更全面的评估分数如下表所示:

自适应工具调用能力
与以往需要用户手动选择工具的方式不同,Qwen3-Max-Thinking能够在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。这一能力源于专门设计的训练流程:在完成初步的工具使用微调后,模型在多样化任务上结合规则与模型反馈进行了进一步训练。实践证明,搜索和记忆工具能有效缓解幻觉问题、提供实时信息访问并支持更个性化的回复。代码解释器则允许用户执行代码片段,并应用计算推理来解决复杂问题。这些功能共同构成了流畅且强大的对话体验。
测试时扩展技术
测试时扩展指的是在推理阶段分配额外计算资源以提升模型性能的技术。我们提出了一种经验积累式、多轮迭代的测试时扩展策略。不同于简单地增加并行推理路径数量(这往往导致冗余推理),我们限制并将节省的计算资源用于由“经验提炼”机制引导的迭代式自我反思。该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。关键在于,相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,能在相同上下文窗口内更充分地融合历史信息。在总体token消耗大致相同的情况下,该方法在多个基准上持续优于标准的并行采样与聚合方法,例如GPQA(90.3 → 92.8)、HLE(34.1 → 36.5)、LiveCodeBench v6(88.0 → 91.4)、IMO-AnswerBench(89.5 → 91.5)以及HLE(w/ tools)(55.8 → 58.3)。
Qwen3-Max-Thinking现已上线Qwen Chat,用户可直接与模型及其自适应工具调用功能进行交互。同时,Qwen3-Max-Thinking的API也已开放。
相关攻略
角色与核心任务 你是一位顶级的文章润色专家,擅长将AI生成的文本转化为具有个人风格的专业文章。现在,请对用户提供的文章进行“人性化重写”。 你的核心目标是: 在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下,彻底改变原文的AI表达腔调,使其读起来像是一位资深人类专家的作品。
从“动口”到“动手”:OpenClaw如何将AI推入“执行时代”? 文|洞见新研社 3月的最后一周,OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众,主角换成了来自蚂蚁、天融信、360等机构的安全研究员,他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时10倍额度 北京时间4月10日凌晨,OpenAI终于落下了重度用户期盼已久的那只靴子:正式推出每月100美元的全新订阅方案。 至此,OpenAI的商业化版图已经清晰地划分为四个核心层级: ·免费版(接入广告) ·每月8美元的G
2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率
AI行业迎来关键转折:从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期,国泰君安国际大幅上调其目标价至245港元 股。多重因素驱动下,迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。 中国AI实现弯道超车:成本优势构筑核心壁垒 全球
热门专题
热门推荐
财务智能化浪潮正深刻重塑行业格局,这既是严峻挑战,更是历史性机遇。对于广大财务从业者而言,固步自封意味着职业风险,主动转型才是破局关键。那么,财务人员如何应对智能化转型?核心在于积极拥抱变化,将人工智能、大数据等前沿技术内化为自身的核心竞争力。 一、持续学习,实现技能进阶 在智能化时代,学习已成为财
在探讨人工智能的最新进展时,语言大模型已成为一个无法回避的核心议题。它早已超越了实验室研究的范畴,正作为构建新一代AI智能体的关键平台,深刻改变着我们与机器交互、协作乃至共同进化的模式。 那么,语言大模型为何能成为AI发展的基石?其核心优势在于强大的理解与生成能力。通过对海量文本数据的深度学习与算法
人工智能的浪潮正席卷而来,其中,大语言模型无疑是浪尖上最耀眼的明珠。它们动辄千亿参数的庞大体量,以及背后精妙的深度学习架构,让机器理解并生乘人类语言的能力达到了前所未有的高度。不过,一个现实问题也随之浮现:这些“通才”型巨无霸,如何能精准地服务于千差万别的具体场景?答案的关键,就在于“微调”这项技术
在数字化浪潮席卷全球的今天,一项融合前沿AI与3D技术的创新解决方案正引领人机交互的新趋势。实在智能重磅推出的全栈AI虚拟人解决方案,深度融合了自然语言处理与3D数字化定制技术,旨在为用户打造前所未有的沉浸式交互体验。这不仅是一次技术升级,更是智能科技迈向人性化、情感化的重要里程碑。 那么,这套AI
在当今企业数字化转型的进程中,流程挖掘技术已成为提升运营效率与管理水平的关键工具。它如同一位专业的“企业流程医生”,能够基于真实数据为企业进行精准诊断并提供优化“处方”。 那么,什么是流程挖掘?简单来说,它是一种从企业信息系统(如ERP、CRM)的事件日志中自动发现、监控和改进实际业务流程的技术。它





