阿里千问最新推理模型亮相:多项性能破纪录
新京报贝壳财经讯(记者 罗亦丹)1月26日晚间,阿里巴巴正式推出千问旗舰推理模型Qwen3-Max-Thinking。在多项关键性能基准测试中,千问模型的表现超越了GPT-5.2、Claude Opus 4.5及Gemini 3 Pro等顶尖模型,刷新了全球纪录,进一步拓展了人工智能系统的推理性能边界。
通过扩展总参数量、强化学习以及推理计算规模,千问新模型实现了性能的大幅跃升,在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多个关键基准测试中均创下全球最佳成绩。
具体来看,在核心的模型推理能力提升方面,千问新模型采用了全新的测试时扩展机制。这种机制在提升推理性能的同时,还显著提高了效率。当前业界普遍采用的推理时计算,大多只是简单增加并行推理路径,重复推导已知结论,导致推理效率低下。而千问采用的这项新技术,能够对之前推理的结果进行“经验提炼”式的提纯,并据此进行多轮自我迭代,在相同的上下文语境中实现更高效的推理计算,从而获得更智能的推理结果。基于这一推理技术创新,千问的推理性能和推理效率均得到大幅提升。例如,在启用工具的“人类最后的测试”HLE中,千问获得58.3分,大幅超越GPT-52-Thinking的45.5分以及Gemini 3 Pro的45.8分,录得当前所有模型中的最高分。
阿里巴巴方面表示,Qwen3-Max-Thinking的总参数量超过万亿,经过了更大规模的强化学习后训练,并通过推理技术的一系列创新,最终实现了模型性能的跨越式增长。该模型还大幅增强了自主调用工具的原生Agent能力,使得模型能够像专业人士一样,边使用工具边进行思考。同时,模型的幻觉问题也得到显著抑制,为解决真实世界的复杂任务奠定了坚实基础。目前,普通用户可通过千问PC端及网页端试用新模型,千问APP也即将接入,所有用户均可免费体验。
编辑 陈莉 校对 杨利
相关攻略
新京报贝壳财经讯(记者罗亦丹)1月26日晚间,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,在多项关键性能基准测试中,千问表现超过了GPT-5 2、Claude Opus 4 5
刘涓溪 纵观马大为的科研人生,从优化反应实验到寻找药物合成最优解,他一直都在和医学难题较劲。在他看来,把医学难题变成科研课题,是科学家必须承担的使命。 科学研究不是无本之木,立足实际更能找到科研的方
阿里系模型攻坚提速。1月26日晚,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5 2、Gemini 3 Pro,成为迄今为止最接近国
热门专题
热门推荐
广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。
杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。
5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。
七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。
联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。





