首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
阿里千问最强模型重磅亮相,性能比肩GPT-5与Gemini

阿里千问最强模型重磅亮相,性能比肩GPT-5与Gemini

热心网友
64
转载
2026-01-27

1月26日,阿里正式发布了全新的千问旗舰推理模型Qwen3-Max-Thinking,在多项权威评测中刷新了多项全球纪录。其性能表现足以媲美GPT-5.2与Gemini 3 Pro,成为迄今为止最接近国际顶尖水准的国内AI大模型。通过海量总参数、强化学习与推理计算的极致规模扩展,千问新模型实现了性能的大幅飞跃,一举刷新了科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键基准测试的全球最佳纪录。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

阿里千问最强模型重磅亮相!性能媲美GPT-5.2、Gemini+3+Pro

Qwen3-Max-Thinking是阿里目前规模最大、能力最强的千问推理模型,其总参数量超过万亿(1T),预训练数据量高达36T Tokens。此前,预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的双满分成绩,成为国内首个达成此成就的模型,其推理性能令人惊艳。在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking的各项性能:在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、智能体能力等19个公认的大模型基准测试中,这款旗舰推理模型刷新了多项关键性能的最佳表现纪录,其综合性能已可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5 以及 Gemini 3 Pro。

在关键的模型推理能力提升方面,千问新模型采用了一种全新的测试时扩展机制。这一创新机制能在提升推理性能的同时,实现更高的计算经济性。业界普遍的推理时计算,通常只是简单地增加并行推理路径,导致大量重复推导已知结论,造成计算资源浪费和推理效率低下。而千问采用的这一新机制,能够对先前的推理结果进行“经验提炼”式的提取与精炼,并据此进行多轮自我迭代,在相同的上下文语境中实现更高效的推理计算,从而获得更智能的推理结果。基于这一核心技术创新,千问模型的推理性能和效率均得到显著提升。例如,在启用了工具调用的“人类最后的测试”HLE中,千问取得了58.3分,大幅超越了GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,获得了当前所有模型中的最高分数。

面向即将到来的智能体时代,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生智能体能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能地结合工具进行深度思考的能力。这种自适应工具调用能力可在QwenChat上完整体验。模型能自主选用搜索、个性化记忆和代码解释器这三个核心的智能体工具功能,提供的回答具有专业人士般的水准,更贴合用户心意、显得更智能、更流畅。同时,模型产生幻觉的概率也大为降低,为解决真实世界中的复杂任务奠定了坚实基础。

目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型。企业用户可通过阿里云百炼平台获取新模型API服务。普通用户也可以通过千问PC客户端及网页端试用新版模型。据了解,千问官方应用也即将接入新模型,届时所有用户都可免费体验千问的最强模型。


来源:https://www.leiphone.com/category/industrynews/k0Evef8ezEtSdgHk.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

告别千人一面:阿里Wan2.7图像模型如何破解AI标准脸
业界动态
告别千人一面:阿里Wan2.7图像模型如何破解AI标准脸

4月1日,阿里巴巴发布图像生成与编辑统一模型Wan2 7-Image。直击当前 AI 生图领域“标准脸”审美疲劳和“色彩盲盒”等痛点,该模型可实现“千人千面”,捏出“活人感”,全新的“调色盘”功能可

热心网友
04.01
阿里Qwen3.5-Omni新突破:音视频交互登顶,全模态能力全球领先
科技数码
阿里Qwen3.5-Omni新突破:音视频交互登顶,全模态能力全球领先

全球全模态大模型竞赛迎来新变数。3月30日,阿里巴巴正式推出千问系列新一代全模态大模型Qwen3 5-Omni。这款模型在音视频理解、跨模态推理、实时交互等215项第三方评测中拿下SOTA(Stat

热心网友
04.01
通义千问Qwen3.5-Omni发布,多模态能力全面领先
业界动态
通义千问Qwen3.5-Omni发布,多模态能力全面领先

3月30日,阿里发布千问新一代全模态大模型Qwen3 5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3 1 Pro,成为目前全球最强的全模态大模型

热心网友
03.31
阿里QoderWork移动端打通钉钉微信飞书,一键调用AI
业界动态
阿里QoderWork移动端打通钉钉微信飞书,一键调用AI

3月27日消息,阿里桌面Agent应用QoderWork全面打通钉钉、微信和飞书三大主流IM,用户可直接在手机上与QoderWork对话,随时随地调度桌面AI助手的全部能力,远程完成文件整理、数据处

热心网友
03.27
阿里千问上车红旗汽车:一句话智能指挥座舱各项功能
编程语言
阿里千问上车红旗汽车:一句话智能指挥座舱各项功能

3月26日消息,阿里AI助手千问正式接入红旗汽车智能座舱,这是继AI眼镜之后,千问进一步拓展至更高复杂度的车载场景,加速进入物理世界,迈向全场景AI助手。据悉,千问很快就会首次搭载在红旗HS6 PH

热心网友
03.26

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02