首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
阿里千问Qwen3.7-Max发布:国产旗舰模型自主完成35小时任务

阿里千问Qwen3.7-Max发布:国产旗舰模型自主完成35小时任务

热心网友
78
转载
2026-05-20

5月20日,在备受瞩目的阿里云峰会上,全新一代千问旗舰模型Qwen3.7-Max正式发布。这不仅是阿里云大模型技术的一次重大迭代,更标志着国产大模型在核心能力上实现了关键性突破,向国际顶尖水平看齐。

根据全球权威大模型盲测平台Arena的最新榜单数据显示,Qwen3.7-Max的综合表现已全面超越Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国内主流模型。其整体实力与GPT-4o、Claude 3.5 Sonnet、Gemini 2.0等国际最新旗舰模型同处第一梯队,稳居国产大模型排行榜首位,堪称“国产第一模型”。

国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务

回顾其发展历程,从Qwen3.5到Qwen3.6,再到如今的Qwen3.7-Max,千问旗舰系列在短短三个月内完成了三次重大版本升级。如此高频的迭代节奏,充分展现了阿里云在大模型研发上的深厚积累与加速态势。

面向智能体场景的全新设计

本次发布的Qwen3.7-Max,其核心设计理念明确聚焦于智能体(Agent)应用场景,并在多个关键维度实现了显著提升。

编程能力是构建实用智能体的基础。在SWE-Pro、SWE-Multilingual等编程智能体权威测评中,Qwen3.7-Max均取得了领先成绩。特别是在终端编程基准测试Terminal Bench 2.0-Terminus中,其以69.7的高分超越了DeepSeek-v4-pro-Max和Claude-Opus4.6等强劲对手,展现了卓越的代码生成与复杂问题解决能力。

在通用智能体能力方面,该模型在MCP-Atlas、MCP-Mark、Skillbench等一系列贴近真实业务场景的测试中表现同样出色,成功超越了GLM5.1、Kimi-K2.6等国内同行,创造了国产大模型在该领域的新纪录。

推理与通用能力的全面领先

强大的逻辑推理能力是衡量大模型智能水平的核心指标。在GPQA Diamond、HLE、HMMT 2026 Feb等高难度推理评测中,Qwen3.7-Max不仅力压所有国产模型,甚至超越了Claude-Opus4.6这样的国际顶级选手,展现出顶尖的推理实力。

其通用任务处理能力同样出众。在评估模型理解与执行复杂指令的IFBench评测中,Qwen3.7-Max获得了79.1的高分,刷新了该榜单纪录。同时,在多语言理解与生成评测WMT24++和MAXIFE中,它也保持了显著的领先优势,证明了其强大的跨语言处理能力。

一场持续35小时的“极限挑战”

如果说标准基准测试是“开卷考试”,那么下面这项实战任务,则堪称一场对模型自主能力的“闭卷极限挑战”。

在一个模型训练时完全未接触过的新硬件平台——平头哥真武M890芯片上,Qwen3.7-Max被赋予了一项极具挑战的任务:自主优化推理内核。关键在于,它没有得到任何现成的性能分析数据、硬件架构文档,甚至没有参考示例代码。一切从零开始,完全自主探索。

最终,模型独立、连续运行了长达35小时。在此期间,它自主进行了432次内核性能评估和1158次工具调用,完整地走完了代码编写、编译、性能分析、迭代优化的全流程。整个过程完全自主,无任何人工干预。

结果令人震撼:经Qwen3.7-Max优化后的推理内核,相比SGLang Triton的最新参考实现,取得了高达10倍的性能加速。这一成绩,是对其强大自主探索与工程优化能力的硬核证明。

国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务

更令人印象深刻的是测试轨迹所展现的持久创造力:模型在独立运行超过30小时后,依然能够发现有效的性能优化点,甚至主动发起了一次关键的架构重设计。这种在长周期、复杂任务中保持的持续创新能力,正是高级智能体走向实用化所必需的核心特质。

智能体能力的泛化与协作

一个真正优秀的智能体,必须具备良好的框架泛化能力。Qwen3.7-Max展现出了出色的跨框架适应性,无论是在Claude Code、OpenClaw还是其自家的Qwen Code框架下,都能稳定发挥其高效能。

此外,通过深度融合MCP(模型上下文协议)与先进的多智能体协作技术,该模型在办公自动化基准SpreadSheetBench-v1上斩获了87分的顶尖成绩。这意味着它在处理如电子表格操作这类步骤繁琐、逻辑复杂的实际办公任务时,已具备极高的实用价值和可靠性。

据阿里云官方透露,Qwen3.7-Max的API服务即将在阿里云百炼平台正式上线。后续,阿里云还将推出包括Qwen3.7-Plus在内的更多版本,旨在全面覆盖从编程开发、通用任务到视觉理解等全场景智能体应用需求。国产大模型的生态竞争与落地应用,显然已进入一个全新的深度发展阶段。

来源:https://m.mydrivers.com/newsview/1123554.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

千问Qwen如何实现会计审计中的报表分析
AI资讯
千问Qwen如何实现会计审计中的报表分析

在会计审计实务中,如何从格式复杂的财务报表中高效提取数据并完成专业分析,是提升工作效率的关键挑战。传统OCR技术与规则引擎常因文档结构混乱、跨页表格、附注嵌套等问题而力不从心。如今,借助通义千问(Qwen)系列大模型,我们可以构建一套覆盖图像解析、深度分析到底稿生成的智能化全流程解决方案。本文将详细

热心网友
05.20
千问Qwen如何配置Prompt缓存以降低延迟
AI资讯
千问Qwen如何配置Prompt缓存以降低延迟

合理配置千问Qwen的prompt缓存机制可显著降低延迟。隐式缓存自动识别重复前缀,需保持请求结构一致。显式缓存适合固定模板,需注册并指定缓存键。vLLM部署可启用前缀缓存,Transformers则需手动管理past_key_values参数。调试时可禁用缓存以获取基线数据。

热心网友
05.20
阿里千问Qwen3.7-Max-Preview登陆Arena AI 多项能力跻身全球前列
AI资讯
阿里千问Qwen3.7-Max-Preview登陆Arena AI 多项能力跻身全球前列

【快讯】阿里云旗下千问大模型家族迎来了新成员——最新预览版本Qwen3 7-Max-Preview与Qwen3 7-Plus-Preview已正式登陆Qwen Chat及Arena AI平台。这意味着,在即将到来的5月20日阿里云峰会正式发布前,业界和开发者已经可以提前一睹其风采。 作为Qwen3

热心网友
05.20
阿里通义千问Qwen3.7预览版模型功能详解
业界动态
阿里通义千问Qwen3.7预览版模型功能详解

阿里通义千问推出下一代旗舰模型预览版Qwen3 7Preview,包含主打极致推理的Max版和侧重长上下文与性价比的Plus版。模型在编程基准和LMSYS竞技场表现领先,支持多模态输入与超长上下文处理,采用混合专家架构等技术创新,适用于软件开发、企业知识管理等多类场景。

热心网友
05.19
Qwen 3.7 Max预览版发布 两代超大杯模型同步更新
AI资讯
Qwen 3.7 Max预览版发布 两代超大杯模型同步更新

Qwen3 7系列预览版在竞技场榜单首次亮相,其中Qwen3 7-Max-Preview在文本综合能力榜位列全球第13,助力阿里机构排名升至第6,并居国产模型首位。Qwen3 7-Plus-Preview则在视觉榜单排名第16,使阿里视觉机构排名跃至第5。两款模型在多个细分领域也进入全球前十。自Qwen3系列起,模型迭代明显加速,预览版先行测试、正式版后续发

热心网友
05.19

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

商汤大装置稳居中国MaaS市场第一梯队持续领跑
AI资讯
商汤大装置稳居中国MaaS市场第一梯队持续领跑

IDC报告显示,商汤“万象”平台以11 3%份额位居中国大模型私有化市场第二。平台通过一站式模型服务、全生命周期专家支持及低代码工具链,满足企业安全、性能与成本需求,推动AI在政务、交通、能源等行业落地,降低技术门槛,加速价值实现。

热心网友
05.20
实用AI工具盘点与选择指南提升工作效率
AI教程
实用AI工具盘点与选择指南提升工作效率

市场上有多种高效AI工具可供选择。WPSAI能智能处理文档,Grammarly辅助写作纠错,AIPPT工具快速生成演示文稿,ChatGPT进行对话与创作,DeepL提供精准翻译。CanvaAI助力设计,GitHubCopilot和TabNine提升编程效率,AI去背工具简化图像编辑。这些工具覆盖写作、设计、编程等场景,能显著提升工作效率。

热心网友
05.20
对话Bitget AI负责人:AI交易如何无限逼近满分却难达完美
AI资讯
对话Bitget AI负责人:AI交易如何无限逼近满分却难达完美

BitgetAI负责人Bill博士指出,AI在交易平台中已能高效整合信息、辅助决策,提升效率。当前产品注重个性化建议与安全易用的交互,如通过Telegram提供自然对话辅助。AI虽无法完全替代顶尖交易员,但其价值在于赋能用户、优化流程。未来竞争关键将在于安全体系、成本控制及持续学习用户习惯的能力。

热心网友
05.20
2026年热门AI软件工具精选与推荐指南
AI教程
2026年热门AI软件工具精选与推荐指南

2024年,AI工具正深度融入工作流程,提升效率与创意。WPSAI集成于办公软件,助力文档创作与优化;ChatGPT作为多功能对话模型,辅助编程与文案;GoogleBard擅长信息整合与自然对话;BoardMix结合白板与AI,可生成思维导图等可视化内容;NewBing融合搜索与对话,兼具创意与可信来源;NotionAI能自动处理会议纪要等文本任务;Gram

热心网友
05.20
代币化美股热度飙升 加密券商能否颠覆传统金融格局
web3.0
代币化美股热度飙升 加密券商能否颠覆传统金融格局

代币化美股热度上升,投资者可通过区块链交易相关资产,挑战传统券商模式。其优势包括降低门槛、提升流动性和全天候交易,但也面临监管不明确等风险。未来能否颠覆传统金融,取决于技术发展与合规进程。

热心网友
05.20