阿里千问Qwen3.7-Max发布国产最强AI模型性能登顶

时间：2026-05-21 21:19

国产大语言模型的性能纪录，再次被改写。 5月20日，阿里巴巴正式推出全新一代通义千问旗舰模型——Qwen3 7-Max。该模型一经发布，便在全球权威大模型竞技场Arena的盲测总榜中取得突破性成绩：它不仅超越了Kimi-K2 6、DeepSeek-v4-pro、GLM-5 1等国内主流竞品，其综合性

国产大语言模型的性能纪录，再次被改写。

5月20日，阿里巴巴正式推出全新一代通义千问旗舰模型——Qwen3.7-Max。该模型一经发布，便在全球权威大模型竞技场Arena的盲测总榜中取得突破性成绩：它不仅超越了Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国内主流竞品，其综合性能更是直逼GPT、Claude、Gemini等国际顶级模型的最新版本，稳坐国产大模型头把交椅。

尤为关键的是，Qwen3.7-Max是专为“智能体（Agent）”时代量身打造的。它在编程、逻辑推理等核心能力上实现了显著跃升，并成功挑战了一项极限任务——完全自主地执行并完成了长达35小时的超长程复杂项目。在一个全新的芯片平台上，Qwen3.7-Max通过自主编程与超过1000次的工具调用，成功驱动了一个关键计算内核的自我优化，最终将推理速度提升了惊人的10倍。

迭代加速，性能全面领先

阿里在大模型领域的研发步伐明显提速。短短三个月内，通义千问旗舰模型已连续迭代了3.5、3.6、3.7三个版本，持续刷新国产模型的性能上限。Qwen3.7-Max在多项核心基准测试中均名列前茅，展现出全方位的强大竞争力。

在编程智能体能力方面，Qwen3.7-Max在SWE-Pro、SWE-Multilingual等评测中均取得领先优势。在终端编程基准Terminal Bench 2.0-Terminus测试中，它以69.7的高分，超越了DeepSeek-v4-pro-Max、Claude-Opus4.6等众多强劲模型。

在通用智能体能力上，Qwen3.7-Max同样进步显著。在贴近实际应用场景的MCP-Atlas、MCP-Mark、Skillbench等测试中表现卓越，超越了GLM5.1、Kimi-K2.6等模型，创下国产模型新高。同时，它在Kernel Bench L3测试中也展现了强大的GPU内核优化实力。

至于核心的逻辑推理能力，Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等高难度推理测评中，全面超越了Claude-Opus4.6及所有国产竞争对手。

此外，在通用任务遵循与多语言理解方面，Qwen3.7-Max同样表现突出。它在指令遵循基准IFBench评测中获得79.1分，创下新高；在多语言理解与翻译任务WMT24++、MAXIFE评测中也处于行业领先地位。

编程能力：从原型到工程的跨越

如今，编程能力已成为评估大语言模型实力的关键标尺。Qwen3.7-Max在这方面相比前代模型实现了质的飞跃，从前端原型快速开发到复杂的多文件系统工程，均能高效驾驭。

在评估AI解决真实世界编程问题的SWE-bench系列测评，以及面向科学计算问题的SciCode测评中，Qwen3.7-Max不仅较Qwen3.6-Plus有大幅提升，更一举超越了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等顶尖对手。

可以说，通义千问3.7是一个卓越的编程智能体。它能够自主编写代码、创造工具、精准执行任务，并在复杂编程过程中完成自我纠错与迭代优化。整个过程，犹如一位资深工程师完整跑通了从需求分析、代码开发到测试迭代的全流程，最终自主产出可投入生产的工业级解决方案。

智能体底座：长程任务与工作流自动化

持续进化的编程能力，为智能体执行更复杂、周期更长的任务奠定了坚实基础。千问3.7本身就具备强大的原生Agent能力，并展现出跨多种智能体框架的优异泛化性能。无论是在Claude Code、OpenClaw还是Qwen Code等不同框架下，它都能稳定发挥，有望成为各类智能体应用系统的可靠技术底座。

通过MCP（模型上下文协议）集成与多智能体协作，Qwen3.7-Max能够在企业级办公场景中实现工作流的自动化处理。在办公自动化基准SpreadSheetBench-v1上，它斩获87分的顶尖成绩，堪称可靠的办公与生产力智能助手。以往需要专业团队耗时一至两周的复杂数据分析项目，如今由Qwen3.7-Max驱动的智能体，可在数小时内完成从需求理解到成果交付的端到端闭环。

35小时极限挑战：自主内核优化

在实战压力测试中，Qwen3.7-Max展示了当前智能体所能达到的长程复杂任务极限。对于大模型而言，推理速度与底层推理框架效率紧密相关，而AI基础设施工程师的核心工作之一，便是对推理框架中的计算算子进行深度优化。这项工作需要极强的专业知识、算法功底以及反复的调试与迭代能力。

如今，千问3.7尝试自主攻克了这一难题。测试设置在一个模型训练时从未接触过的全新硬件平台——平头哥真武M890 AI芯片上。任务目标是优化一个复杂的推理计算内核。在没有任何性能分析数据、硬件文档或新架构示例代码的情况下，千问3.7仅从一个包含任务描述、SGLang Triton参考实现和评测脚本的空白工作空间开始。

从“零”起步，它持续自主编程了35小时，独立进行了432次内核性能评估、1158次工具调用，完全自主地完成了代码编写、编译、性能分析与迭代改进的全流程。

最终成果令人振奋：在平头哥新款AI芯片上，经过千问优化后的推理内核，相比SGLang Triton的最新参考实现，取得了10倍的性能加速。测试日志还显示，模型在独立运行超过30小时后，依然能发现有效的优化机会，甚至主动发起了一次关键性的架构重新设计。这充分证明了千问在复杂任务中具备长周期自主迭代与进化的能力，为未来AI模型与智能体的自我演进开启了全新的可能性。