阿里深夜发布最强千问推理模型,性能比肩GPT-5.2
阿里系模型攻坚提速。1月26日晚,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下多项权威评测全球新纪录,性能媲美GPT-5.2、Gemini+3+Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。
据了解,Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超万亿(1T),预训练数据量高达36T+Tokens。此前,预览版Qwen3-Max-Thinking斩获数学推理AIME+25和HMMT+25的国内首个双满分,推理性能已令人惊艳;在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能:在覆盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了多项最佳表现(SOTA)纪录,整体性能可媲美+GPT-5.2-Thinking-xhigh、Claude+Opus+4.5+和+Gemini+3+Pro+。
据悉,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time+Scaling)机制,使得推理性能提升的同时还更经济。
目前业界普遍在推理时会遇到以下难题:只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下。据悉,千问采用新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。基于这一推理技术创新,千问推理性能和推理效率大为提升,比如在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5-Thinking的45.5、Gemini+3+Pro的45.8,录得当前所有模型的最高分。

HLE测试中千问得分58.3,超过GPT-5.2-Thinking。
另外,面向即将到来的智能体Agent时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅;同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。
采写:南都N视频记者+林文琪
相关攻略
新京报贝壳财经讯(记者罗亦丹)1月26日晚间,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,在多项关键性能基准测试中,千问表现超过了GPT-5 2、Claude Opus 4 5
刘涓溪 纵观马大为的科研人生,从优化反应实验到寻找药物合成最优解,他一直都在和医学难题较劲。在他看来,把医学难题变成科研课题,是科学家必须承担的使命。 科学研究不是无本之木,立足实际更能找到科研的方
阿里系模型攻坚提速。1月26日晚,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5 2、Gemini 3 Pro,成为迄今为止最接近国
热门专题
热门推荐
广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。
杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。
5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。
七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。
联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。





