阿里开源4800亿参数编程模型，Agent超越Kimi K2并公开训练细节

时间：2026-06-23 14:20

阿里开源Qwen3-Coder-480B-A35B，激活参数三百五十亿，在智能体编程与浏览器使用等任务中取得开源界最佳成绩，超越了KimiK2。预训练采用七点五万亿token，其中百分之七十为代码；后训练采用长视距强化学习，并行运行两万个独立环境。

深夜上线Qwen Chat，海外网友已经玩疯了

就在不久前，阿里巴巴Qwen团队悄然发布了一款重磅产品——正式开源其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。据团队介绍，这是迄今为止他们最强大的开源智能体编程模型。该模型总参数规模高达480B，但推理时仅激活35B参数，原生支持256K上下文，并可通过外推技术扩展至100万token的输入，最大输出能力达到6.5万token。

在多项基准测试中，这款AI编程模型表现极为亮眼。在Agentic Coding（智能体编程）、Agentic Browser-Use（智能体浏览器使用）和Agentic Tool-Use（智能体工具调用）三类任务上，它均斩获了开源模型中的最佳成绩（SOTA），直接超越Kimi K2、DeepSeek V3等开源竞品，甚至能与GPT-4.1这样的闭源模型一较高下。更值得一提的是，它完全可以与以编程能力著称的Claude Sonnet 4正面竞争。

此次开源的是Qwen3-Coder的最强变体版本。从参数规模来看，它超过了阿里自家的旗舰模型Qwen3的235B，但远小于Kimi K2的1T。阿里官方给出了一个极具冲击力的评价：借助Qwen3-Coder，刚入行的程序员一天就能完成资深程序员一周的工作量，生成一个品牌官网最快只需5分钟。

除了模型本身，Qwen团队还开源了一个非常实用的工具——Qwen Code。这是一款基于Gemini Code分支而来的智能体编程命令行工具，专门为Qwen3-Coder定制了提示词和函数调用协议的适配，能够充分释放该模型在智能体编程任务上的潜力。

目前该模型已在阿里云旗下的百炼平台上线。API采用阶梯计价方式，输入token量越大，单价越便宜。在256K～1M这一档，输入价格为6美元/百万token，输出为60美元/百万token。相比之下，Claude Sonnet 4的输入和输出价格分别是3美元/百万token和15美元/百万token，这个价格水平与Qwen3-Coder 128k～256k那一档大致相当。

另外，在Qwen Chat网页版中也能直接免费体验Qwen3-Coder。480B版本已在Hugging Face、魔搭等开源社区发布，支持下载和本地部署。Qwen团队还专门发布了一篇技术博客，详细分享了模型的技术细节。

在Qwen团队正式官宣之前，该模型其实已经在Qwen Chat官网悄悄上线了。手快的海外网友们贡献了一大波实测案例。

有网友让Qwen3-Coder开发一个Wordle单词游戏——规则是在六次尝试内猜出一个五个字母的单词。结果模型交付的页面和源代码都相当完整。这位网友评价其指令遵循、UI设计、动画方面的能力“惊人”，大部分测试结果一次就跑通，完全不需要推理。不过也有一处小遗憾：在Wordle游戏设计任务上，Qwen3-Coder没有使用现成的单词解析器，也没有引用来源，而是自己枚举了所有五个字母的单词。

另一个找不同游戏的开发案例同样引人注目。相比昨天发布的Qwen3-235B-A22B-2507，Qwen3-Coder在审美和完成度上明显更胜一筹。

智东西团队也进行了一轮测试——让Qwen3-Coder开发一个中英文术语库，要求支持增删改查等基础功能。直观感受是：由于未开启推理，开发速度快得惊人，仅20多秒就输出了初步结果，后续修改时速度同样很快。

最终交付的结果从UI角度看确实美观清晰，功能运行正常。但有一点需要注意：它并没有遵循提示词中“使用PHP+MySQL进行开发”的指令。如果把这个结果当作功能演示或原型展示，完全够用；但若要真正部署到生产环境，可扩展性还有优化空间。

智东西还让Qwen3-Coder自己出了一道3D HTML开发题——创建一个3D旋转的立方体展示台，六个面显示不同颜色，自动旋转，并带有光照效果和阴影。结果完成度相当不错，主要功能基本实现，旋转动效和阴影处理都很到位。

编程能力之外，Qwen3-Coder还提供了不少其他玩法，包括图像生成、视频生成，以及支持文档、图片、视频、音频等文件上传。这些功能推测是通过工具调用实现的。

正式发布后，Qwen官方也放出了一些实际应用案例。比如让它制作一个基于物理的烟囱拆除模拟，带有受控爆炸效果。

又比如打造一个可互动的太阳系模拟，行星之间的相对位置基本准确。

开发出的网页小游戏完成度同样不俗。

02 预训练仍有扩展空间，在20000个独立环境进行强化学习

Qwen团队在技术博客中分享了一些训练细节，其中一个判断颇有见地：预训练当前仍有进一步提升的空间。

预训练阶段，Qwen3-Coder使用了7.5万亿token的数据，其中代码占比70%。这也是它在编程方面表现出色，同时还能保留通用能力和数学能力的原因。

上下文方面，原生支持256K，通过YaRN可扩展到1M，针对仓库规模和动态数据（如拉取请求）做了专门优化，目的就是为了适配智能体编程场景。

值得注意的是，上一代模型Qwen2.5-Coder被用来扩展合成数据——具体而言，Qwen2.5清洗并重写了噪声数据，从而提升了整体数据质量。

在后训练阶段，Qwen团队有一个核心观点：与普遍关注竞赛级代码生成不同，所有代码任务都天然适合做执行驱动的大规模强化学习。因此他们在更广泛的现实世界编程任务上扩大了代码强化学习的训练规模。

通过自动扩展多样化编程任务的测试用例，团队创建了高质量的训练实例，进一步释放了强化学习的潜力。结果不仅提高了代码执行成功率，还给其他任务带来了额外收益。

这也激发了团队进一步去探索那些“难解决但易验证”的任务类型——这很可能会成为强化学习的新沃土。

在现实世界的软件工程任务（如SWE-Bench）中，Qwen3-Coder需要与环境进行多轮交互，涉及规划、使用工具、接收反馈和做出决策。在Qwen3-Coder的后训练阶段，Qwen团队引入了长视距强化学习（即智能体强化学习），鼓励模型通过使用工具进行多轮交互来解决现实世界任务。

智能体强化学习的关键挑战在于环境扩展。为了解决这一问题，团队构建了一个可扩展的系统，能够并行运行20000个独立环境。这个基础设施为大规模强化学习提供了必要的反馈，也支持大规模评估。

最终，Qwen3-Coder在SWE-Bench Verified中实现了开源模型的最佳性能，且没有使用推理（测试时扩展）。

同时开源的Qwen Code是一个供研究使用的命令行界面工具，基于Gemini CLI开发，针对Qwen-Coder模型做了增强的解析器和工具支持。另外，如果你更喜欢Claude Code，也可以用它和Qwen3-Coder一起编程——只需在Dashscope平台申请一个API密钥，再安装好Claude Code即可。