阿里千问最强模型重磅亮相,性能比肩GPT-5与Gemini
1月26日,阿里正式发布了全新的千问旗舰推理模型Qwen3-Max-Thinking,在多项权威评测中刷新了多项全球纪录。其性能表现足以媲美GPT-5.2与Gemini 3 Pro,成为迄今为止最接近国际顶尖水准的国内AI大模型。通过海量总参数、强化学习与推理计算的极致规模扩展,千问新模型实现了性能的大幅飞跃,一举刷新了科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键基准测试的全球最佳纪录。

Qwen3-Max-Thinking是阿里目前规模最大、能力最强的千问推理模型,其总参数量超过万亿(1T),预训练数据量高达36T Tokens。此前,预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的双满分成绩,成为国内首个达成此成就的模型,其推理性能令人惊艳。在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking的各项性能:在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、智能体能力等19个公认的大模型基准测试中,这款旗舰推理模型刷新了多项关键性能的最佳表现纪录,其综合性能已可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5 以及 Gemini 3 Pro。
在关键的模型推理能力提升方面,千问新模型采用了一种全新的测试时扩展机制。这一创新机制能在提升推理性能的同时,实现更高的计算经济性。业界普遍的推理时计算,通常只是简单地增加并行推理路径,导致大量重复推导已知结论,造成计算资源浪费和推理效率低下。而千问采用的这一新机制,能够对先前的推理结果进行“经验提炼”式的提取与精炼,并据此进行多轮自我迭代,在相同的上下文语境中实现更高效的推理计算,从而获得更智能的推理结果。基于这一核心技术创新,千问模型的推理性能和效率均得到显著提升。例如,在启用了工具调用的“人类最后的测试”HLE中,千问取得了58.3分,大幅超越了GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,获得了当前所有模型中的最高分数。
面向即将到来的智能体时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生智能体能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能地结合工具进行深度思考的能力。这种自适应工具调用能力可在QwenChat上完整体验。模型能自主选用搜索、个性化记忆和代码解释器这三个核心的智能体工具功能,提供的回答具有专业人士般的水准,更贴合用户心意、显得更智能、更流畅。同时,模型产生幻觉的概率也大为降低,为解决真实世界中的复杂任务奠定了坚实基础。
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型。企业用户可通过阿里云百炼平台获取新模型API服务。普通用户也可以通过千问PC客户端及网页端试用新版模型。据了解,千问官方应用也即将接入新模型,届时所有用户都可免费体验千问的最强模型。
相关攻略
4月7日,阿里巴巴旗下AI助手通义千问宣布,其核心的“深度研究”专业能力迎来重磅升级。本次升级不仅新增了财经分析等关键模块,更接入了覆盖A股、港股、美股等市场超过1 3万支股票的实时行情数据,以及近百万家上市公司的财报与公告信息。在当前AI高阶功能普遍转向付费订阅的行业趋势下,千问团队选择将此次升级
宇树科技与阿里酝酿合作,机器人现身西溪园区 最近科技圈里有个消息传得挺热:宇树科技和阿里巴巴,这两家分别在机器人和电商领域举足轻重的公司,可能正在联手谋划一项重要的出海战略。这事儿要是成了,对行业格局的影响,恐怕不小。 消息的源头,是几张颇有故事感的现场照片。宇树科技最新的机器人产品R1,近日出现在
阿里发布 Wan2 7-Video 视频生成模型:“能导擅演”,聚焦创作全链路 今天下午,AI视频创作领域迎来一个重要更新:阿里正式上线了其视频生成模型Wan2 7-Video。这款新模型主打一个“全”字,支持文本、图像、视频、音频全模态输入,并将目光聚焦在“创作”的每一个环节上。从生成到编辑,从复
阿里云加码全球AI基建:五国新建数据中心,首次进入墨西哥市场 5月23日,阿里云的一则公告,在全球云计算市场投下了一枚重磅消息。他们宣布,将在韩国、马来西亚、菲律宾、泰国和墨西哥这五个国家,投资新建数据中心。这一轮海外扩张,目标非常明确——重点布局AI基础设施,为下一阶段的全球竞争全力冲刺。 值得注
告别“标准脸”与“色彩盲盒”:阿里Wan2 7-Image如何重塑AI生图体验 4月1日,阿里巴巴正式发布了图像生成与编辑统一模型Wan2 7-Image。这款新模型直指当前AI生图领域的两大核心痛点——千篇一律的“标准脸”审美疲劳和难以预测的“色彩盲盒”效应。它带来的,是真正意义上的“千人千面”生
热门专题
热门推荐
科学家警告,过度依赖人工智能可能削弱创造力与批判性思维,类似GPS损害方向感。研究显示,AI替代需“认知摩擦”的思考过程,或导致认知能力衰退。专家建议应有意识使用AI,使其成为思维“扩音器”而非替代品,例如先自主判断、加深信息处理、主动创意构思,以保护并锻炼大脑独特能力。
谷歌推出云端AI驱动的安卓电脑,重塑PC形态。当前AIPC多依赖云端算力,本地硬件价值受质疑。云电脑与AI结合成为新方向,对网络延迟更宽容。谷歌联合硬件伙伴推进该方案,阿里等云服务商也已布局。传统芯片、终端厂商及微软、苹果正以不同策略应对AIPC趋势。未来竞争将聚焦云端能力、系统重构与生态协。
结论先行:在2026年的商业环境中,企业数字化转型方法的核心不再是单纯的IT系统堆砌,而是“业务流程自动化”与“AI智能化”的深度融合。成功的数字化转型方法论应遵循“小步快跑、场景切入、数据驱动”的原则,利用AI Agent(智能体)技术打通烟囱式系统,实现平滑升级,而非推倒重来。 一、 拒绝假大空
面对琳琅满目的产品设计软件,许多设计师和团队都在追问:究竟哪一款才是最好的选择?然而,真正的答案并非一个简单的软件名称,而是一套基于您具体工作流程的适配逻辑。本文将为您系统解析,如何跳出“最好”的迷思,找到最“对”的那款工具,从而最大化团队效率与产出价值。 核心决策逻辑 首先,我们必须确立一个核心原
跨境电商的售后环节,本质上是客户信任的二次考验。当问题出现时,初次交易建立的信任已然动摇,若处理不当,将直接导致客户永久流失。因此,构建一套真正高效的售后体系,必须实现三大核心目标:响应速度需如本地支付般即时;处理规则需预先设定,实现小额纠纷的自动化化解;最终,所有流程数据必须形成闭环,驱动供应链的





