游乐游手机版
首页/AI教程/文章详情

阿里开源4800亿参数编程模型,Agent超越Kimi K2并公开训练细节

时间:2026-06-23 14:20
阿里开源Qwen3-Coder-480B-A35B,激活参数三百五十亿,在智能体编程与浏览器使用等任务中取得开源界最佳成绩,超越了KimiK2。预训练采用七点五万亿token,其中百分之七十为代码;后训练采用长视距强化学习,并行运行两万个独立环境。

深夜上线Qwen Chat,海外网友已经玩疯了

就在不久前,阿里巴巴Qwen团队悄然发布了一款重磅产品——正式开源其最新一代旗舰编程模型Qwen3-Coder-480B-A35B-Instruct。据团队介绍,这是迄今为止他们最强大的开源智能体编程模型。该模型总参数规模高达480B,但推理时仅激活35B参数,原生支持256K上下文,并可通过外推技术扩展至100万token的输入,最大输出能力达到6.5万token。

在多项基准测试中,这款AI编程模型表现极为亮眼。在Agentic Coding(智能体编程)、Agentic Browser-Use(智能体浏览器使用)和Agentic Tool-Use(智能体工具调用)三类任务上,它均斩获了开源模型中的最佳成绩(SOTA),直接超越Kimi K2、DeepSeek V3等开源竞品,甚至能与GPT-4.1这样的闭源模型一较高下。更值得一提的是,它完全可以与以编程能力著称的Claude Sonnet 4正面竞争。

此次开源的是Qwen3-Coder的最强变体版本。从参数规模来看,它超过了阿里自家的旗舰模型Qwen3的235B,但远小于Kimi K2的1T。阿里官方给出了一个极具冲击力的评价:借助Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作量,生成一个品牌官网最快只需5分钟。

除了模型本身,Qwen团队还开源了一个非常实用的工具——Qwen Code。这是一款基于Gemini Code分支而来的智能体编程命令行工具,专门为Qwen3-Coder定制了提示词和函数调用协议的适配,能够充分释放该模型在智能体编程任务上的潜力。

目前该模型已在阿里云旗下的百炼平台上线。API采用阶梯计价方式,输入token量越大,单价越便宜。在256K~1M这一档,输入价格为6美元/百万token,输出为60美元/百万token。相比之下,Claude Sonnet 4的输入和输出价格分别是3美元/百万token和15美元/百万token,这个价格水平与Qwen3-Coder 128k~256k那一档大致相当。

另外,在Qwen Chat网页版中也能直接免费体验Qwen3-Coder。480B版本已在Hugging Face、魔搭等开源社区发布,支持下载和本地部署。Qwen团队还专门发布了一篇技术博客,详细分享了模型的技术细节。

在Qwen团队正式官宣之前,该模型其实已经在Qwen Chat官网悄悄上线了。手快的海外网友们贡献了一大波实测案例。

有网友让Qwen3-Coder开发一个Wordle单词游戏——规则是在六次尝试内猜出一个五个字母的单词。结果模型交付的页面和源代码都相当完整。这位网友评价其指令遵循、UI设计、动画方面的能力“惊人”,大部分测试结果一次就跑通,完全不需要推理。不过也有一处小遗憾:在Wordle游戏设计任务上,Qwen3-Coder没有使用现成的单词解析器,也没有引用来源,而是自己枚举了所有五个字母的单词。

另一个找不同游戏的开发案例同样引人注目。相比昨天发布的Qwen3-235B-A22B-2507,Qwen3-Coder在审美和完成度上明显更胜一筹。

智东西团队也进行了一轮测试——让Qwen3-Coder开发一个中英文术语库,要求支持增删改查等基础功能。直观感受是:由于未开启推理,开发速度快得惊人,仅20多秒就输出了初步结果,后续修改时速度同样很快。

最终交付的结果从UI角度看确实美观清晰,功能运行正常。但有一点需要注意:它并没有遵循提示词中“使用PHP+MySQL进行开发”的指令。如果把这个结果当作功能演示或原型展示,完全够用;但若要真正部署到生产环境,可扩展性还有优化空间。

智东西还让Qwen3-Coder自己出了一道3D HTML开发题——创建一个3D旋转的立方体展示台,六个面显示不同颜色,自动旋转,并带有光照效果和阴影。结果完成度相当不错,主要功能基本实现,旋转动效和阴影处理都很到位。

编程能力之外,Qwen3-Coder还提供了不少其他玩法,包括图像生成、视频生成,以及支持文档、图片、视频、音频等文件上传。这些功能推测是通过工具调用实现的。

正式发布后,Qwen官方也放出了一些实际应用案例。比如让它制作一个基于物理的烟囱拆除模拟,带有受控爆炸效果。

又比如打造一个可互动的太阳系模拟,行星之间的相对位置基本准确。

开发出的网页小游戏完成度同样不俗。

02 预训练仍有扩展空间,在20000个独立环境进行强化学习

Qwen团队在技术博客中分享了一些训练细节,其中一个判断颇有见地:预训练当前仍有进一步提升的空间。

预训练阶段,Qwen3-Coder使用了7.5万亿token的数据,其中代码占比70%。这也是它在编程方面表现出色,同时还能保留通用能力和数学能力的原因。

上下文方面,原生支持256K,通过YaRN可扩展到1M,针对仓库规模和动态数据(如拉取请求)做了专门优化,目的就是为了适配智能体编程场景。

值得注意的是,上一代模型Qwen2.5-Coder被用来扩展合成数据——具体而言,Qwen2.5清洗并重写了噪声数据,从而提升了整体数据质量。

在后训练阶段,Qwen团队有一个核心观点:与普遍关注竞赛级代码生成不同,所有代码任务都天然适合做执行驱动的大规模强化学习。因此他们在更广泛的现实世界编程任务上扩大了代码强化学习的训练规模。

通过自动扩展多样化编程任务的测试用例,团队创建了高质量的训练实例,进一步释放了强化学习的潜力。结果不仅提高了代码执行成功率,还给其他任务带来了额外收益。

这也激发了团队进一步去探索那些“难解决但易验证”的任务类型——这很可能会成为强化学习的新沃土。

在现实世界的软件工程任务(如SWE-Bench)中,Qwen3-Coder需要与环境进行多轮交互,涉及规划、使用工具、接收反馈和做出决策。在Qwen3-Coder的后训练阶段,Qwen团队引入了长视距强化学习(即智能体强化学习),鼓励模型通过使用工具进行多轮交互来解决现实世界任务。

智能体强化学习的关键挑战在于环境扩展。为了解决这一问题,团队构建了一个可扩展的系统,能够并行运行20000个独立环境。这个基础设施为大规模强化学习提供了必要的反馈,也支持大规模评估。

最终,Qwen3-Coder在SWE-Bench Verified中实现了开源模型的最佳性能,且没有使用推理(测试时扩展)。

同时开源的Qwen Code是一个供研究使用的命令行界面工具,基于Gemini CLI开发,针对Qwen-Coder模型做了增强的解析器和工具支持。另外,如果你更喜欢Claude Code,也可以用它和Qwen3-Coder一起编程——只需在Dashscope平台申请一个API密钥,再安装好Claude Code即可。

03 结语:更多尺寸即将推出,探索编程智能体自我提升

在Cursor对Claude等编程模型断供的背景下,Qwen3-Coder的开源为国内开发者提供了一个最新且强有力的替代选择。Qwen团队透露,他们还在持续提升Coding Agent的性能,目标是让它承担软件工程中那些复杂和乏味的任务,从而释放人类的生产力。

更多尺寸的Qwen3-Coder即将推出,可以在部署成本和性能之间找到更好的平衡。此外,团队也在探索一个很有意思的问题:Coding Agent能否实现自我提升?

来源:https://www.aiagiai.com/13162.html
上一篇扎克伯格火速挖走谷歌IMO金牌华人功臣 下一篇Anthropic研究揭示:模型在未对齐时已会说谎
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年最新JetBrains AI助手Windows本地详细安装配置教程(含下载与环境要求)
AI教程 · 2026-07-03

年最新JetBrains AI助手Windows本地详细安装配置教程(含下载与环境要求)

JetBrainsAIAssistant可在Windows上通过IDE内置市场或离线包安装,需匹配新版JetBrainsIDE、账号登录与稳定网络。配置时应关注版本兼容、隐私设置、项目索引、快捷键和代码提交前复核,避免上传密钥与敏感业务资料。

Amazon Q Developer新手安装指南:从下载到首次运行的保姆级教程
AI教程 · 2026-07-03

Amazon Q Developer新手安装指南:从下载到首次运行的保姆级教程

AmazonQDeveloper可为编码、调试、解释项目和生成测试提供辅助。安装前需确认账号、开发环境和插件来源,按IDE或命令行路径完成配置,并在首次运行时注意权限、数据与项目安全。

Amazon Q Developer安装失败怎么办?报错日志排查与升级回滚方案
AI教程 · 2026-07-03

Amazon Q Developer安装失败怎么办?报错日志排查与升级回滚方案

AmazonQDeveloper安装失败通常与版本兼容、网络连接、身份登录、插件残留或权限配置有关。排查时应先确认环境,再查看IDE与终端日志,必要时采用清理重装、固定版本升级或回滚方案。

Amazon Q Developer本地模型运行:下载、路径与性能优化
AI教程 · 2026-07-03

Amazon Q Developer本地模型运行:下载、路径与性能优化

AmazonQDeveloper以云端能力为主,本地模型方案更适合离线补充、代码检索和私有环境辅助。配置时需确认版本、模型来源、路径权限、硬件资源与IDE集成方式,并通过量化、上下文控制和缓存策略优化性能。

Amazon Q Developer插件安装全流程:浏览器编辑器扩展市场配置
AI教程 · 2026-07-03

Amazon Q Developer插件安装全流程:浏览器编辑器扩展市场配置

AmazonQDeveloper可在浏览器控制台、VSCode、JetBrains等环境中辅助写代码、解释项目和生成测试。安装前需确认账号权限、编辑器版本与网络环境,配置时重点关注登录授权、工作区信任、数据权限和团队使用规范。