首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
阿里千问重磅升级:性能对标GPT-5.2、Gemini 3 Pro

阿里千问重磅升级:性能对标GPT-5.2、Gemini 3 Pro

热心网友
13
转载
2026-01-27

1月26日,阿里正式推出千问旗舰推理模型Qwen3-Max-Thinking,在多项权威评测中创造了全球新纪录。其性能表现可与GPT-5.2、Gemini 3 Pro等顶尖模型相媲美,成为迄今为止最接近国际顶尖水平的国内最强AI大模型。

通过极致的总参数量扩展、强化学习训练和推理计算规模提升,千问新模型实现了性能的大幅飞跃。它在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多个关键性能基准测试中刷新了全球纪录。

阿里千问最强模型重磅亮相:性能媲美GPT-5.2、Gemini 3 Pro

Qwen3-Max-Thinking是目前阿里规模最大、能力最强的千问推理模型,其总参数量超过万亿(1T),预训练数据量高达36T Tokens。

此前,预览版Qwen3-Max-Thinking就已在数学推理测试AIME 25和HMMT 25中斩获国内首个双满分,其推理能力令人惊艳。在此基础之上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking的性能。

在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了多项最佳表现(SOTA)纪录,整体性能足以比肩GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro。

在关键的模型推理能力提升方面,千问新模型采用了一种全新的测试时扩展机制,在提升推理性能的同时也更加经济高效。

业界普遍的推理时计算,只是简单地增加并行推理路径,重复推导已知结论,导致推理效率低下。而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

基于这一推理技术创新,千问的推理性能和推理效率均显著提升。例如,在启用工具的“人类最后的测试”HLE中,千问获得58.3分,大幅超过GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,创下了当前所有模型的最高分纪录。

面向即将到来的智能体时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。

具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能地结合工具进行思考的能力。

这种自适应的工具调用能力可在QwenChat上完整体验。模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供如专业人士水平的回答,更合用户心意、更智能、更流畅;同时,模型的幻觉也大为降低,为解决真实复杂任务打下基础。

目前,开发者能在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可免费体验千问最强模型。

来源:https://m.mydrivers.com/newsview/1100642.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

购物小票自动记账 千问Agent生成月度账单
AI
购物小票自动记账 千问Agent生成月度账单

千问Agent可通过四步实现自动化记账:一、上传小票图片触发表格识别;二、批量导入电子发片生成报销台账;三、回溯聊天记录提炼网购清单;四、拍照直出建立日账单。 手动录入每一笔支出,不仅耗时耗力,还特别容易遗漏。如果你也为此感到头疼,那问题很可能出在工具上——你需要的或许不是更强的毅力,而是一个能帮你

热心网友
05.18
千问AI上下文对话能力深度测评与多轮交互解析
AI
千问AI上下文对话能力深度测评与多轮交互解析

通义千问模型在多轮对话中展现出扎实的上下文管理能力。测试表明,它能有效处理长文档信息回溯、维持话题链、稳定记忆角色与格式要求,并在密集指代中保持精确绑定,为复杂连续交互提供了可靠支持。

热心网友
05.18
千问AI如何自动生成单元测试代码的实用指南
AI
千问AI如何自动生成单元测试代码的实用指南

为AI生成的代码构建测试防线,可采取多种方法。基于函数签名自动生成测试骨架,能快速搭建基础框架。从AI解释中提取自然语言描述,可直接转化为测试用例。使用Mock技术隔离外部依赖,确保测试稳定可控。借助AI补全断言逻辑,并识别潜在遗漏点,如边界和异常情况,以提升测试覆盖率和准确性。

热心网友
05.18
千问AI代码审查实战:如何用它检查代码质量与潜在Bug
AI
千问AI代码审查实战:如何用它检查代码质量与潜在Bug

千问AI工具辅助代码审查,提供三种分析模式:一是逐行分析完整代码片段,需注明语言与关注点;二是按清单验证设计思路或伪代码,明确功能目标;三是比对业界标准范式,定位偏差与问题根源。清晰描述问题是获得有效建议的关键。

热心网友
05.18
千问AI推出119种语言图片翻译功能覆盖全球98%人口
业界动态
千问AI推出119种语言图片翻译功能覆盖全球98%人口

4月29日,AI翻译技术迎来重大突破。千问APP全面升级其图片翻译功能,率先在行业内实现了对全球119种语言的“图片到图片”即时翻译。这一创新意味着,全球约98%人口所使用的语言,现在都能通过简单的拍照动作完成精准互译。 此次升级的语言覆盖范围之广,堪称行业里程碑。它不仅全面支持英语、日语、法语、德

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

警惕人工智能依赖 避免大脑能力退化
业界动态
警惕人工智能依赖 避免大脑能力退化

科学家警告,过度依赖人工智能可能削弱创造力与批判性思维,类似GPS损害方向感。研究显示,AI替代需“认知摩擦”的思考过程,或导致认知能力衰退。专家建议应有意识使用AI,使其成为思维“扩音器”而非替代品,例如先自主判断、加深信息处理、主动创意构思,以保护并锻炼大脑独特能力。

热心网友
05.18
谷歌阿里微软云端AI决战 云电脑迎来行业新机遇
业界动态
谷歌阿里微软云端AI决战 云电脑迎来行业新机遇

谷歌推出云端AI驱动的安卓电脑,重塑PC形态。当前AIPC多依赖云端算力,本地硬件价值受质疑。云电脑与AI结合成为新方向,对网络延迟更宽容。谷歌联合硬件伙伴推进该方案,阿里等云服务商也已布局。传统芯片、终端厂商及微软、苹果正以不同策略应对AIPC趋势。未来竞争将聚焦云端能力、系统重构与生态协。

热心网友
05.18
企业数字化转型全流程解析:从战略规划到AI智能体落地
业界动态
企业数字化转型全流程解析:从战略规划到AI智能体落地

结论先行:在2026年的商业环境中,企业数字化转型方法的核心不再是单纯的IT系统堆砌,而是“业务流程自动化”与“AI智能化”的深度融合。成功的数字化转型方法论应遵循“小步快跑、场景切入、数据驱动”的原则,利用AI Agent(智能体)技术打通烟囱式系统,实现平滑升级,而非推倒重来。 一、 拒绝假大空

热心网友
05.18
产品设计软件推荐与选择指南
业界动态
产品设计软件推荐与选择指南

面对琳琅满目的产品设计软件,许多设计师和团队都在追问:究竟哪一款才是最好的选择?然而,真正的答案并非一个简单的软件名称,而是一套基于您具体工作流程的适配逻辑。本文将为您系统解析,如何跳出“最好”的迷思,找到最“对”的那款工具,从而最大化团队效率与产出价值。 核心决策逻辑 首先,我们必须确立一个核心原

热心网友
05.18
跨境电商售后难题的智能客服解决方案
业界动态
跨境电商售后难题的智能客服解决方案

跨境电商的售后环节,本质上是客户信任的二次考验。当问题出现时,初次交易建立的信任已然动摇,若处理不当,将直接导致客户永久流失。因此,构建一套真正高效的售后体系,必须实现三大核心目标:响应速度需如本地支付般即时;处理规则需预先设定,实现小额纠纷的自动化化解;最终,所有流程数据必须形成闭环,驱动供应链的

热心网友
05.18