国产大语言模型的性能纪录,再次被改写。
5月20日,阿里巴巴正式推出全新一代通义千问旗舰模型——Qwen3.7-Max。该模型一经发布,便在全球权威大模型竞技场Arena的盲测总榜中取得突破性成绩:它不仅超越了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国内主流竞品,其综合性能更是直逼GPT、Claude、Gemini等国际顶级模型的最新版本,稳坐国产大模型头把交椅。
尤为关键的是,Qwen3.7-Max是专为“智能体(Agent)”时代量身打造的。它在编程、逻辑推理等核心能力上实现了显著跃升,并成功挑战了一项极限任务——完全自主地执行并完成了长达35小时的超长程复杂项目。在一个全新的芯片平台上,Qwen3.7-Max通过自主编程与超过1000次的工具调用,成功驱动了一个关键计算内核的自我优化,最终将推理速度提升了惊人的10倍。
迭代加速,性能全面领先
阿里在大模型领域的研发步伐明显提速。短短三个月内,通义千问旗舰模型已连续迭代了3.5、3.6、3.7三个版本,持续刷新国产模型的性能上限。Qwen3.7-Max在多项核心基准测试中均名列前茅,展现出全方位的强大竞争力。
在编程智能体能力方面,Qwen3.7-Max在SWE-Pro、SWE-Multilingual等评测中均取得领先优势。在终端编程基准Terminal Bench 2.0-Terminus测试中,它以69.7的高分,超越了DeepSeek-v4-pro-Max、Claude-Opus4.6等众多强劲模型。
在通用智能体能力上,Qwen3.7-Max同样进步显著。在贴近实际应用场景的MCP-Atlas、MCP-Mark、Skillbench等测试中表现卓越,超越了GLM5.1、Kimi-K2.6等模型,创下国产模型新高。同时,它在Kernel Bench L3测试中也展现了强大的GPU内核优化实力。
至于核心的逻辑推理能力,Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等高难度推理测评中,全面超越了Claude-Opus4.6及所有国产竞争对手。
此外,在通用任务遵循与多语言理解方面,Qwen3.7-Max同样表现突出。它在指令遵循基准IFBench评测中获得79.1分,创下新高;在多语言理解与翻译任务WMT24++、MAXIFE评测中也处于行业领先地位。
编程能力:从原型到工程的跨越
如今,编程能力已成为评估大语言模型实力的关键标尺。Qwen3.7-Max在这方面相比前代模型实现了质的飞跃,从前端原型快速开发到复杂的多文件系统工程,均能高效驾驭。
在评估AI解决真实世界编程问题的SWE-bench系列测评,以及面向科学计算问题的SciCode测评中,Qwen3.7-Max不仅较Qwen3.6-Plus有大幅提升,更一举超越了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等顶尖对手。
可以说,通义千问3.7是一个卓越的编程智能体。它能够自主编写代码、创造工具、精准执行任务,并在复杂编程过程中完成自我纠错与迭代优化。整个过程,犹如一位资深工程师完整跑通了从需求分析、代码开发到测试迭代的全流程,最终自主产出可投入生产的工业级解决方案。
智能体底座:长程任务与工作流自动化
持续进化的编程能力,为智能体执行更复杂、周期更长的任务奠定了坚实基础。千问3.7本身就具备强大的原生Agent能力,并展现出跨多种智能体框架的优异泛化性能。无论是在Claude Code、OpenClaw还是Qwen Code等不同框架下,它都能稳定发挥,有望成为各类智能体应用系统的可靠技术底座。
通过MCP(模型上下文协议)集成与多智能体协作,Qwen3.7-Max能够在企业级办公场景中实现工作流的自动化处理。在办公自动化基准SpreadSheetBench-v1上,它斩获87分的顶尖成绩,堪称可靠的办公与生产力智能助手。以往需要专业团队耗时一至两周的复杂数据分析项目,如今由Qwen3.7-Max驱动的智能体,可在数小时内完成从需求理解到成果交付的端到端闭环。
35小时极限挑战:自主内核优化
在实战压力测试中,Qwen3.7-Max展示了当前智能体所能达到的长程复杂任务极限。对于大模型而言,推理速度与底层推理框架效率紧密相关,而AI基础设施工程师的核心工作之一,便是对推理框架中的计算算子进行深度优化。这项工作需要极强的专业知识、算法功底以及反复的调试与迭代能力。
如今,千问3.7尝试自主攻克了这一难题。测试设置在一个模型训练时从未接触过的全新硬件平台——平头哥真武M890 AI芯片上。任务目标是优化一个复杂的推理计算内核。在没有任何性能分析数据、硬件文档或新架构示例代码的情况下,千问3.7仅从一个包含任务描述、SGLang Triton参考实现和评测脚本的空白工作空间开始。
从“零”起步,它持续自主编程了35小时,独立进行了432次内核性能评估、1158次工具调用,完全自主地完成了代码编写、编译、性能分析与迭代改进的全流程。
最终成果令人振奋:在平头哥新款AI芯片上,经过千问优化后的推理内核,相比SGLang Triton的最新参考实现,取得了10倍的性能加速。测试日志还显示,模型在独立运行超过30小时后,依然能发现有效的优化机会,甚至主动发起了一次关键性的架构重新设计。这充分证明了千问在复杂任务中具备长周期自主迭代与进化的能力,为未来AI模型与智能体的自我演进开启了全新的可能性。
面向Agentic时代的全面升级
在2026阿里云峰会现场,阿里云宣布面向Agentic(智能体)时代进行全方位技术升级,重磅发布了全新的“芯-云-模型-推理”一体化技术体系。据悉,Qwen3.7-Max模型的API即将在阿里云百炼平台正式上线提供服务。
同时,通义千问3.7系列还将推出Qwen3.7-Plus等多个版本模型,它们将具备强大的多模态推理与视觉理解能力,实现从编程智能体到视觉智能体的能力全覆盖,旨在为下一代人工智能应用构建一个全能的智能体新基座。
