游乐游手机版
首页/业界动态/文章详情

阿里千问Qwen3.7-Max发布:国产旗舰模型自主完成35小时任务

时间:2026-05-20 13:15
阿里云发布千问旗舰模型Qwen3 7-Max,在多项评测中超越国内外主流模型,位居国产榜首。该模型专为智能体场景设计,在编程、推理及通用能力上表现领先。其能完全自主完成长达35小时的内核优化任务,实现十倍性能提升,并展现出优秀的跨框架泛化与多智能体协作能力。

5月20日,在备受瞩目的阿里云峰会上,全新一代千问旗舰模型Qwen3.7-Max正式发布。这不仅是阿里云大模型技术的一次重大迭代,更标志着国产大模型在核心能力上实现了关键性突破,向国际顶尖水平看齐。

根据全球权威大模型盲测平台Arena的最新榜单数据显示,Qwen3.7-Max的综合表现已全面超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国内主流模型。其整体实力与GPT-4o、Claude 3.5 Sonnet、Gemini 2.0等国际最新旗舰模型同处第一梯队,稳居国产大模型排行榜首位,堪称“国产第一模型”。

国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务

回顾其发展历程,从Qwen3.5到Qwen3.6,再到如今的Qwen3.7-Max,千问旗舰系列在短短三个月内完成了三次重大版本升级。如此高频的迭代节奏,充分展现了阿里云在大模型研发上的深厚积累与加速态势。

面向智能体场景的全新设计

本次发布的Qwen3.7-Max,其核心设计理念明确聚焦于智能体(Agent)应用场景,并在多个关键维度实现了显著提升。

编程能力是构建实用智能体的基础。在SWE-Pro、SWE-Multilingual等编程智能体权威测评中,Qwen3.7-Max均取得了领先成绩。特别是在终端编程基准测试Terminal Bench 2.0-Terminus中,其以69.7的高分超越了DeepSeek-v4-pro-Max和Claude-Opus4.6等强劲对手,展现了卓越的代码生成与复杂问题解决能力。

在通用智能体能力方面,该模型在MCP-Atlas、MCP-Mark、Skillbench等一系列贴近真实业务场景的测试中表现同样出色,成功超越了GLM5.1、Kimi-K2.6等国内同行,创造了国产大模型在该领域的新纪录。

推理与通用能力的全面领先

强大的逻辑推理能力是衡量大模型智能水平的核心指标。在GPQA Diamond、HLE、HMMT 2026 Feb等高难度推理评测中,Qwen3.7-Max不仅力压所有国产模型,甚至超越了Claude-Opus4.6这样的国际顶级选手,展现出顶尖的推理实力。

其通用任务处理能力同样出众。在评估模型理解与执行复杂指令的IFBench评测中,Qwen3.7-Max获得了79.1的高分,刷新了该榜单纪录。同时,在多语言理解与生成评测WMT24++和MAXIFE中,它也保持了显著的领先优势,证明了其强大的跨语言处理能力。

一场持续35小时的“极限挑战”

如果说标准基准测试是“开卷考试”,那么下面这项实战任务,则堪称一场对模型自主能力的“闭卷极限挑战”。

在一个模型训练时完全未接触过的新硬件平台——平头哥真武M890芯片上,Qwen3.7-Max被赋予了一项极具挑战的任务:自主优化推理内核。关键在于,它没有得到任何现成的性能分析数据、硬件架构文档,甚至没有参考示例代码。一切从零开始,完全自主探索。

最终,模型独立、连续运行了长达35小时。在此期间,它自主进行了432次内核性能评估和1158次工具调用,完整地走完了代码编写、编译、性能分析、迭代优化的全流程。整个过程完全自主,无任何人工干预。

结果令人震撼:经Qwen3.7-Max优化后的推理内核,相比SGLang Triton的最新参考实现,取得了高达10倍的性能加速。这一成绩,是对其强大自主探索与工程优化能力的硬核证明。

国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务

更令人印象深刻的是测试轨迹所展现的持久创造力:模型在独立运行超过30小时后,依然能够发现有效的性能优化点,甚至主动发起了一次关键的架构重设计。这种在长周期、复杂任务中保持的持续创新能力,正是高级智能体走向实用化所必需的核心特质。

智能体能力的泛化与协作

一个真正优秀的智能体,必须具备良好的框架泛化能力。Qwen3.7-Max展现出了出色的跨框架适应性,无论是在Claude Code、OpenClaw还是其自家的Qwen Code框架下,都能稳定发挥其高效能。

此外,通过深度融合MCP(模型上下文协议)与先进的多智能体协作技术,该模型在办公自动化基准SpreadSheetBench-v1上斩获了87分的顶尖成绩。这意味着它在处理如电子表格操作这类步骤繁琐、逻辑复杂的实际办公任务时,已具备极高的实用价值和可靠性。

据阿里云官方透露,Qwen3.7-Max的API服务即将在阿里云百炼平台正式上线。后续,阿里云还将推出包括Qwen3.7-Plus在内的更多版本,旨在全面覆盖从编程开发、通用任务到视觉理解等全场景智能体应用需求。国产大模型的生态竞争与落地应用,显然已进入一个全新的深度发展阶段。

来源:https://m.mydrivers.com/newsview/1123554.html
上一篇Meta裁员前员工狂领免费零食饮料 公司福利被薅羊毛实录 下一篇最新芯片技术路线图揭示0.2纳米制程发展前景
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿