阿里通义千问Qwen3-Max问世，数学推理满分的AI模型超越GPT5

首页/科技数码/文章详情

阿里通义千问Qwen3-Max问世，数学推理满分的AI模型超越GPT5

时间：2025-09-24 13:51

9月24日消息，今日，2025云栖大会开幕，阿里通义旗舰模型Qwen3-Max重磅亮相，性能超过GPT5、Claude Opus 4等，跻身全球前三。据悉，Qwen3-Max包括指令（Instruc

阿里发布重磅AI模型Qwen3-Max 剑指行业前三

9月24日，2025云栖大会正式开幕。会上阿里正式发布了通义千问旗舰级大模型Qwen3-Max，其综合性能表现超越GPT5和Claude Opus 4等国际竞品，成功挺进全球AI大模型第一阵营。

双版本并行全球排名亮眼

Qwen3-Max创新性地推出"指令(Instruct)"和"推理(Thinking)"两个专项版本。目前预览版已在国际权威AI评测平台Chatbot Arena位列第三，预计正式版将带来更多性能突破。

万亿级参数的王者实力

作为通义千问系列目前最强的基座模型，Qwen3-Max展现了令人瞩目的技术实力：

训练数据达36万亿token量级
总参数量突破万亿大关
编程能力和智能体工具调用能力突出

在国际编程能力测试SWE-Bench Verified中，Qwen3-Max Instruct版以69.6的高分进入全球第一梯队；而在智能体工具调用测试Tau2-Bench中更是创下74.8分的记录，领先Claude Opus4和DeepSeek-V3.1等强劲对手。

Qwen3-Max性能数据图表

推理能力获重大突破

Qwen3-Max的强化版Qwen3-Max-Thinking-Heavy在并行推理技术的加持下表现惊艳：

数学推理测试AIME 25和中国高中数学联赛(HMMT)双满分
开创业内首个100分纪录
首创代码求解+工具调用的解题模式

该模型的卓越表现源于两项关键技术突破：首先是在解题过程中灵活调用计算工具的能力，其次是充分利用了计算资源的扩展优势。

Qwen3-Max推理能力展示

全栈产品矩阵正式成型

通义千问系列已完成从5亿到超万亿参数的全尺寸布局，包含300余款细分模型，覆盖各类应用场景。即日起用户可通过以下途径体验：

QwenChat免费试用Qwen3-Max
阿里云百炼平台调用API服务

来源：https://m.mydrivers.com/newsview/1076553.html

阿里云阿里通义大模型

上一篇一加2025游戏大会：超高帧率技术引领行业革新 下一篇雷军2025健身计划接近尾声：99次打卡达成目标100次

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足盼新CEO改进

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

科技数码 · 2026-06-29

年国产车出口710万辆，两家车企销量破百万

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。