首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里开源80B模型!专攻智能体,周靖人林俊旻详解成果

阿里开源80B模型!专攻智能体,周靖人林俊旻详解成果

热心网友
41
转载
2026-02-04


智东西
作者 李水青
编辑 心缘

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西2月4日报道,今日凌晨,阿里开源了一款小型混合专家模型Qwen3-Coder-Next,专为编程智能体(Agent)和本地开发打造。

该模型总参数80B,激活参数仅3B,在权威基准SWE-Bench Verified上实现了超70%的问题解决率,性能媲美激活参数规模大10-20倍的稠密模型。

Qwen3-Coder-Next的主要增强功能如下:

1、高效MoE架构:仅需激活3B参数,可达到与激活参数数量高出10-20倍的模型相当的性能,包括37B激活参数的DeepSeek-V3.2、32B激活参数的Kimi K2.5等,降低显存与算力需求。

2、更强智能体能力:擅长长段推理、复杂工具使用以及从执行失败中恢复,在动态编程任务中性能强大。

3、与真实世界的IDE多样化集成:其256k的上下文长度,加上对各种脚手架模板的适应性,使其能够与OpenClaw、Qwen Code、Claude Code、Web Dev、Browser use、Cline等不同的CLI/IDE平台无缝集成,支持多样化的开发环境。

Qwen3-Coder-Next在实际开发中能理解需求、编写代码,还能与环境交互、完成任务,可以在没有人工干预的情况下生成可玩的网页游戏,部署服务并自动测试。

阿里在编程智能体上进展不断。就在昨日,阿里云CTO周靖人、阿里千问大模型技术负责人林俊旸署名的论文在Arxiv平台上发表,为推进下一代编程Agent的发展提供了新资源和可靠方法。

简单来说,他们提出了一个可扩展的高效框架SWE-Universe,用于从GitHub拉取请求自动构建真实世界的软件工程(SWE)可验证环境。利用一个构建Agent,团队将真实世界的多语言SWE环境的数量扩展到接近百万级(807693 个)。最后,团队将该技术应用于Qwen3-Max-Thinking,并在SWE-Bench Verified测试中取得了75.3%的高分。


▲论文截图

论文地址:

https://www.arxiv.org/abs/2602.02361

回到本次面向产业推出的新模型来看,团队已正式开源Qwen3-Coder-Next(Base)与Qwen3-Coder-Next(Instruct)两个版本,支持研究、评测及商业应用多种场景。

Qwen3-Coder-Next一经发布引起了广泛关注,有网友在社交平台X上称这一模型“尺寸完美”,也有网友表示自己等便携版的Qwen3-Coder已经很久了。


▲社交平台X网友对Qwen3-Coder-Next模型的部分评论

魔搭社区地址:
https://www.modelscope.cn/collections/Qwen/Qwen3-Coder-Next
Hugging Face地址:
https://huggingface.co/collections/Qwen/qwen3-coder-next
GitHub地址:
https://github.com/QwenLM/Qwen3-Coder
技术报告地址:
https://qwen.ai/blog?id=qwen3-coder-next

一、实测媲美10-20倍激活参数稠密模型,赶超DeepSeek

尽管激活参数规模很小,Qwen3-Coder-Next在多项智能体评测上仍能匹敌或超过若干更大的开源模型。

该模型在SWE-Bench、TerminalBench 2.0和Aider等多个主流编程智能体基准上的表现如下。


▲Qwen3-Coder-Next实测表现

使用SWE-Agent框架时,Qwen3-Coder-Next在SWE-Bench Verified上达到70%以上,超过了DeepSeek-V3.2,接近GLM-4.7、MiniMax M2.1。

在多语言设置以及更具挑战的SWE-Bench-Pro基准上,Qwen3-Coder-Next同样超过了DeepSeek-V3.2,还较大幅度领先于GLM-4.7、MiniMax M2.1。

在效率方面,Qwen3-Coder-Next与同类模型在SWE-Bench-Pro基准上进行对比分析,每次推理仅激活3B参数,却能达到与激活参数量达其10-20倍的模型相当的基准性能,包括37B激活参数的DeepSeek-V3.2、32B激活参数的GLM-4.7、32B激活参数的Kimi K2.5等。

虽然专有的全注意力模型在绝对性能上仍保持领先优势,但Qwen3-Coder-Next在面向低成本智能体部署的应用场景中,仍能在效率与性能之间取得更优的帕累托权衡。


▲Qwen3-Coder-Next实测表现

二、创新智能体训练配方:强化智能体训练的信号

Qwen3-Coder-Next模型基于Qwen3-Next-80B-A3B-Base构建,采用混合注意力与MoE的新架构;通过大规模可执行任务合成、环境交互与强化学习进行智能体训练,在降低推理成本的同时,提升编程与智能体能力。

Qwen3-Coder-Next并不只依赖参数规模扩张,而是将重点放在扩展智能体训练信号(agentic training signals)上。团队使用大规模的可验证编程任务与可执行环境进行训练,让模型能够直接从环境反馈中学习,而非仅依赖静态文本。

训练过程主要包括:

1、持续预训练:在以代码与智能体为中心的大规模数据上进行。

2、监督微调:基于高质量的智能体交互轨迹,优化模型的行为。

3、领域专家训练:针对软件工程、问答、Web/UX 等特定领域,精细化专家能力。

4、专家知识蒸馏:最终将27个专家的能力融合至一个轻量的、可部署的单一模型。

这套“配方”的核心目标,是教会模型长时程推理、熟练使用工具,以及从执行错误中有效恢复——这些正是实用编程智能体所需的核心能力。

三、多样化集成下游应用,游戏生成测试无需人工干预

Qwen3-Coder-Next的价值还体现在于其低部署门槛与应用体验。

得益于仅3B的激活参数,开发者可灵活将其集成至多种场景:作为本地IDE插件,实现自动修复与代码生成;构建命令行智能体(CLI Agent),通过自然语言操作终端、管理项目;部署于企业内网环境,打造私有化、高响应的编程辅助系统。“小激活、快响应、强能力”为编程智能体的规模化落地提供了更具可行性的路径。

该模型可集成到多种下游应用中,覆盖OpenClaw、Qwen Code、Claude Code、Web Dev、Browser use、Cline等多种开发环境。

结语:研发落地双投入,阿里加码编程智能体

编程智能体正成为阿里通义千问团队的强攻领域。Qwen3-Coder-Next在编程智能体基准上表现强劲,展现了技术在实用场景中的应用价值。而周靖人、林俊旸署名的新论文则代表了其编程智能体新的前沿进展,形成了研发和落地两条路快步走的趋势。

展望未来,团队认为强大的智能体能力,如自主使用工具、应对难题、管理复杂任务,是更好编程智能体的关键。接下来团队计划提升模型的推理与决策能力、支持更多任务,并根据使用反馈快速迭代更新。


来源:https://www.163.com/dy/article/KKTMHPGC051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

苹果Xcode 26.5发布 智能体先询问再执行并支持AI消息队列
科技数码
苹果Xcode 26.5发布 智能体先询问再执行并支持AI消息队列

苹果公司面向开发者的核心工具Xcode迎来新一轮功能增强。近日,Xcode 26 5正式版发布,此次更新在先前版本已集成的智能编程助手基础上,重点优化了人机协作的流畅度与精准度,使AI辅助编程体验更为智能和高效。 根据官方发布的更新说明,Xcode 26 5内置了Swift 6 3 2语言版本,并提

热心网友
05.13
智能体工程新范式从提示词到围栏工程企业AI落地指南
AI
智能体工程新范式从提示词到围栏工程企业AI落地指南

2026年,AI领域出现了一个值得所有技术决策者关注的新趋势——围栏工程。 如果说2024年是提示词工程的元年,2025年是上下文工程爆发的一年,那么到了2026年,舞台中央的主角已经悄然换成了围栏工程。这个变化传递了一个清晰的信号:当基础模型的能力日趋同质化,真正的竞争壁垒,其实在于智能体外部那层

热心网友
05.13
多智能体系统协同与竞争策略详解
业界动态
多智能体系统协同与竞争策略详解

在人工智能技术飞速发展的今天,多智能体系统(MAS)的协同与竞争策略,已成为解决复杂场景问题的核心技术引擎。从自动驾驶车队的协同避障,到机器人集群的精密装配,再到智慧城市交通网络的动态优化,其卓越性能的背后,都离不开一套精心设计的协同与竞争机制。本文将深入解析多智能体系统实现高效“合作”与“对抗”的

热心网友
05.13
智能体在医疗健康领域的应用场景与未来展望
业界动态
智能体在医疗健康领域的应用场景与未来展望

在探讨人工智能未来应用前景时,智慧医疗与健康领域无疑是备受瞩目的核心赛道。这背后有着深刻的逻辑:从新药研发的分子模拟,到临床影像的智能分析,再到患者床旁的实时监护,人工智能技术正以前所未有的深度与广度,全面重塑医疗健康服务的每一个关键环节。 AI药物研发:从“大海捞针”到“精准导航” 传统新药发现过

热心网友
05.13
马里兰大学研究揭示AI智能体社交局限2600万样本未形成有效互动
AI
马里兰大学研究揭示AI智能体社交局限2600万样本未形成有效互动

这项由马里兰大学与穆罕默德·本·扎耶德人工智能大学联合开展的研究,首次对全球最大的AI智能体社交平台Moltbook进行了全景式剖析。论文已于2026年2月发布,编号为arXiv:2602 14299v1,为有兴趣的读者提供了深入探究的完整路径。 在探讨人工智能的未来时,一个常被忽略的问题是:当数百

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

HTXApp下载安装与优化指南 清理缓存设置网络提升稳定性
web3.0
HTXApp下载安装与优化指南 清理缓存设置网络提升稳定性

本文详细介绍了如何更稳定地下载和使用HTXApp。首先,建议通过官方网站或主流应用商店获取安装包,避免第三方来源。其次,安装后需及时清理旧应用的残留缓存与数据,防止冲突。最后,合理设置通知权限并确保网络环境稳定,能有效提升App运行流畅度与安全性,保障交易信息及时接收。

热心网友
05.13
Xbox新主机Project Helix细节5月8日直播揭晓
游戏资讯
Xbox新主机Project Helix细节5月8日直播揭晓

北京时间5月8日凌晨0点,微软将举办一场名为“游戏开发更新”的春季特别直播活动。对于期待次世代硬件的玩家来说,本次发布会的最大看点,无疑是代号“Project Helix”的全新Xbox主机的更多核心信息将被正式公布。 届时,Xbox产品组合与专案总经理Chris Charla将携手次世代平台副总裁

热心网友
05.13
巨岩布利米尔的利刃获取位置与寻找方法详解
游戏资讯
巨岩布利米尔的利刃获取位置与寻找方法详解

寻找巨岩布利米尔的利刃,是许多冒险者旅程中的一项关键挑战。这把武器不仅威力不凡,其获取过程本身也像一场解谜。如果你还在为此困扰,下面的指引或许能帮你拨开迷雾。 首先,得锁定大致范围。巨岩布利米尔通常活跃在那些地势险峻、岩石嶙峋的区域。这类地方地形复杂,遍布着高耸的巨岩和蜿蜒崎岖的山道,算是它的“主场

热心网友
05.13
嘟嘟脸恶作剧快速升级攻略与技巧详解
游戏资讯
嘟嘟脸恶作剧快速升级攻略与技巧详解

想快速升级嘟嘟脸恶作剧?第一步,也是最重要的一步,就是吃透它的基础规则。你得清楚哪些情境能触发恶作剧,更要明白不同的操作如何影响经验值的获取。举个例子,在商场这类特定场景里,如果你能成功对5个陌生人使用恶作剧道具,系统就会直接奖励你一笔可观的经验值,推动等级提升。摸清这些“隐藏任务”,升级之路就成功

热心网友
05.13
共鸣之心信物获取途径与使用推荐指南
游戏资讯
共鸣之心信物获取途径与使用推荐指南

在游戏世界中,共鸣之心信物不仅是提升战力的关键装备,更是角色成长路上的战略伙伴。每一件信物都拥有独特的属性倾向与背景故事,能够深度改变角色的战斗风格与玩法策略。合理搭配与培养信物,是玩家从新手迈向高手的必经之路。 信物分类及核心特点 想要进行有效搭配,首先需要了解信物的主要类型。根据其核心加成方向,

热心网友
05.13