游乐游手机版
首页/科技数码/文章详情

阿里千问发布Qwen3-Coder-Next:低推理成本编程智能体模型

时间:2026-02-04 10:01
IT之家 2 月 4 日消息,阿里巴巴千问宣布推出 Qwen3-Coder-Next,一款专为编码代理与本地开发打造的开放权重的语言模型。该模型基于 Qwen3-Next-80B-A3B-Base

据IT之家2月4日消息,阿里旗下千问团队正式发布Qwen3-Coder-Next模型。这是一款专为代码辅助与本地开发场景设计的开源大型语言模型,拥有开放的模型权重。

该模型基于Qwen3-Next-80B-A3B-Base架构构建,创新性地采用了混合注意力机制与MoE(专家混合)相结合的全新架构。通过对大规模可执行任务合成、环境交互反馈与强化学习进行系统的智能体训练,在显著降低推理成本的同时,获得了强大的编程与智能体任务执行能力。

以下是IT之家整理的最新详细介绍:

拓展智能体训练

Qwen3-Coder-Next并不依赖于简单的参数规模扩展,而是将重点聚焦于扩展智能体训练信号。研发团队利用大规模可验证的编程任务与可执行环境进行训练,使模型能够直接从环境反馈中持续学习与进化。整个训练过程主要包含以下环节:

在以代码与智能体为中心的优质数据上进行持续预训练。在包含高质量智能体执行轨迹的数据上进行监督微调。通过领域专精的专家训练(涵盖软件工程、质量保证、Web/用户体验等),将专家能力蒸馏至一个统一的、可部署的模型之中。

这一方案特别强调长程推理、工具调用以及从执行失败中恢复与学习的能力,这些对于现实世界中的编程智能体至关重要。

在编程智能体基准上的表现

下图汇总了模型在多个广泛使用的编程智能体基准上的表现,包括SWE-Bench(Verified、Multilingual、Pro)、TerminalBench 2.0以及Aider。


图中数据显示:

在使用SWE-Agent框架时,Qwen3-Coder-Next在SWE-Bench Verified基准上的通过率超过70%。在多语言设置以及更具挑战性的SWE-Bench-Pro基准上,其表现依然保持竞争力。尽管激活参数量较小,该模型在多项智能体测评中仍能匹敌甚至超越若干规模更大的开源模型。效率与性能的平衡

下图直观展示了Qwen3-Coder-Next如何在推理效率与任务性能之间取得更优的帕累托平衡。


这一对比清晰体现了其在效率上的优势:

Qwen3-Coder-Next(3B激活参数)在SWE-Bench-Pro上的表现,足以与激活参数量高10到20倍的模型相媲美。尽管专用的全注意力模型在绝对性能上仍保持领先,但Qwen3-Coder-Next在面向低成本智能体部署方面,处于极具优势的帕累托前沿。总结与未来工作

Qwen3-Coder-Next在编程智能体基准上展现出良好前景,在实用场景中具备了不错的速度与推理能力。尽管其表现可与部分更大的开源模型竞争,但仍有广阔的改进空间。

展望未来,我们认为强大的智能体能力——例如自主使用工具、应对复杂难题、管理多步骤任务——是打造更优秀编程智能体的关键。接下来,团队计划持续提升模型的推理与决策能力、支持更多复杂任务类型,并根据实际使用反馈进行快速迭代与更新。

开源地址

ModelScope:

Hugging Face:

来源:https://www.163.com/dy/article/KKTFPM4D0511B8LM.html
上一篇揭秘中国电动汽车受中亚青睐的原因,阿塞拜疆媒体深度解析 下一篇2029年100TB硬盘在望,西部数据40TB机械硬盘年内登场
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
2026Q1美国智能手机市场降3%至3340万部 苹果三星摩托罗拉前三
科技数码 · 2026-05-30

2026Q1美国智能手机市场降3%至3340万部 苹果三星摩托罗拉前三

2026年5月29日,市场研究机构Omdia发布最新数据,2026年第一季度美国智能手机市场出货量同比下降3%,总量降至3340万部。 这一跌幅表面看似温和,但背后原因颇有深意——2025年第一季度基数本就偏高,当时厂商与运营商为避开美国潜在的关税政策调整,纷纷提前大规模备货。剔除这一对比效应后,真

因诺资产沈星尧:AI是工具,差异化认知构筑超额收益壁垒
科技数码 · 2026-05-30

因诺资产沈星尧:AI是工具,差异化认知构筑超额收益壁垒

在量化投资中,AI作为工具性角色提升研究效率,而非替代人类认知。因诺资产通过多策略体系嵌入AI,并基于对资本市场的深层认知进行差异化设计,构建超额收益壁垒,有效防范策略趋同与市场踩踏风险。

倍思45W双线快充充电宝10000mAh 219元
科技数码 · 2026-05-30

倍思45W双线快充充电宝10000mAh 219元

倍思发售45W自带双线充电宝,219元。内置20cm手提线和72cm伸缩线,可选C+L或双C版本,另有USB-A口。10000mAh,重230g,C口45W、A口33W、输入30W。

法拉利Luce设计引热议 国产电车应学其神韵而非外形
科技数码 · 2026-05-30

法拉利Luce设计引热议 国产电车应学其神韵而非外形

法拉利首款纯电超跑Luce自发布以来热度持续不减。以意大利语中“光”字命名,法拉利明确传达出这并非一次简单的电气化尝试,其背后蕴含的雄心远超参数表上的数字。 然而,争议也随之而来。核心分歧在于设计。作为法拉利历史上首款五座车型,它搭载四轮电机驱动、122千瓦时电池组,续航530公里,输出1050马力

兰族荆棘V2鼠标搭载50K DPI传感器及双端nRF54H20
科技数码 · 2026-05-30

兰族荆棘V2鼠标搭载50K DPI传感器及双端nRF54H20

兰族(LAMZU)荆棘 V2 终于迎来正式发布,今晚即将开售。这款游戏鼠标采用右手人体工学设计,尺寸为 124×66×42mm,重量控制在 55g,无论是大手小手、抓握趴握还是指握,基本都能找到舒适的使用姿势。 核心配置方面,荆棘 V2 搭载了原相 PAW NEXT I 光学传感器,原生 CPI 分