首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
Mistral开源编程模型:大模型性能超Kimi、Qwen,小模型PC可运行

Mistral开源编程模型:大模型性能超Kimi、Qwen,小模型PC可运行

热心网友
47
转载
2025-12-11


智东西
编译 王欣逸
编辑 程茜

智东西12月10日消息,昨晚,法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2,该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外,Mistral还同时推出了原生CLI工具Mistral Vibe,能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。


Devstral 2参数为123B,支持256K上下文窗口,可以探索代码库,并能在保持架构层面上下文理解的同时,进行跨文件协调更改;Devstral Small 2参数为24B,同样具备256K上下文窗口,支持快速推理和反馈,可以定制和本地部署,同时还支持图像输入,可应用于多模态Agents。

在SWE-bench Verified编程基准测试中,Devstral 2取得了72.2%的成绩,优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型,仅次于DeepSeek V3.2;Devstral Small 2取得了68.8%的成绩,超过GPT-OOS-120B,和GLM 4.6持平;在针对实际编程任务进行的人工测试中,Devstral 2表现优于DeepSeek V3.2。基准测试结果如下:


此外,在部署上,Devstral 2至少需要四块H100级GPU,更轻量化的Devstral Small 2可以在消费级硬件上本地运行。

Mistral Vibe是一个由Devstral驱动的开源命令行编程助手,集成了文件操作、代码搜索、版本控制及命令执行等工具。

Mistral AI是一家法国创企,成立于2024年,由前DeepMind和Meta研究人员成立,专注于开源模型开发。今年9月,该公司宣布获得17亿欧元(约合人民币139.9亿元)C轮融资,估值达到117亿欧元(约合人民币962.6亿元),英伟达曾三次投资这家公司。

一、基准测试位列开源第二,和顶尖闭源还有性能差距

据Mistral正式,Devstral 2 123B支持探索代码库,能跨多个文件协调修改,还能保持上下文理解。它可以跟踪框架依赖、检测故障,并能通过修正后重试,从而解决如修复错误、改造遗留系统等复杂挑战。

该模型支持微调,可针对特定编程语言进行优化,适配大型企业代码库的需求。

不过,Devstral 2以修改版的MIT协议发布,这一协议对大企业进行了限制:月收入超过2000万美元(约合人民币1.41亿元)的公司,在未获得Mistral单独商业许可的情况下,无法使用该模型。

更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制,可本地部署,同时还支持图像输入,可应用于多模态Agents。

从基准测试来看,Devstral 2模型位列开源模型的第二名,并正赶超顶尖闭源模型。

Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分,Devstral Small 2取得了68%的得分,在开源模型中已经达到了领先水平,Devstral 2的得分仅次于DeepSeek V3.2。


Devstral 2系列模型的亮点在于小参数设计,其模型在关键基准测试中展现出和顶尖开源模型齐平的性能,却仅需后者几分之一的参数量。

得分只比Devstral 2高0.9%的DeepSeek V3.2,其参数大小是Devstral 2的5倍,是Devstral Small 2的28倍,而表现次于Devstral 2的Kimi K2 Thinking,其参数大小是Devstral 2的8倍,是Devstral Small 2的41倍。


不过,Devstral 2系列模型与顶尖闭源模型之间还存在差距。

人工评测结果显示,在Cline构建的任务场景中,Devstral 2相对DeepSeek V3.2优势明显,胜率为42.8%,败率为28.6%。然而,Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来,胜率仅为21.4%,败率为53.1%。


二、端到端代码自动化,能进行架构级推理

Mistral Vibe是基于Devstral模型构建的开源命令行编程助手,能通过自然语言交互,接入IDE,实现对代码库的探索、修改与变更执行。


Mistral Vibe提供了一个交互式对话界面,集成了文件操作、代码搜索、版本控制及命令执行等工具。

它能自动扫描用户文件结构及Git状态,提供相关上下文信息,能理解整个代码库的架构,并进行架构级推理,此外,它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。

开发者可以通过脚本编程方式运行Mistral Vibe,启用工具执行的自动批准功能,通过简洁的config.toml配置文件管理本地模型与供应商设置,灵活控制工具权限。

结语:平衡高性能与小参数,为企业提供了低门槛解决方案

从Mistral 3到Devstral 2系列、Mistral Vibe,Mistral AI正以相当快的进击速度参与AI竞争,并在模型的高性能与轻量化间实现了平衡,从测试结果看,Devstral Small 2模型在参数仅为24B的情况下,依然优于不少开源模型,和GLM 4.6打平。

Mistral AI在公告中提到,Devstral 2系列模型专为生产级工作流打造,并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距,不过,对大多数企业而言,Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案,尤其是在和Mistral Vibe的搭配使用上,Devstral 2系列模型或将在特定的生产环节发挥作用。

来源:Mistral AI

来源:https://www.163.com/dy/article/KGEGESSK051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

开源代码副脑仅需400美元硅谷天价模型面临挑战
AI资讯
开源代码副脑仅需400美元硅谷天价模型面临挑战

在AI编程领域,一个有趣的现象正在发生:真正改写行业价格体系的,往往不是更尖端的技术,而是更经济的复制路径。 长期以来,最强大的编程智能体被少数科技巨头以封闭、昂贵且难以定制的方式“圈养”着,构成了坚实的竞争壁垒。然而,这道“护城河”最近被开源力量用成本这把锋利的刀,切开了一道口子。艾伦人工智能研究

热心网友
05.19
Git命令实战指南:高效代码管理必备的五个关键步骤
AI资讯
Git命令实战指南:高效代码管理必备的五个关键步骤

接手一个新代码库,第一步该做什么?相信很多人的习惯是打开README,从目录开始逐行阅读。但最近,一种截然不同的思路正在工程师圈子里流传:在看代码之前,不妨先看看Git。 一篇题为《在阅读任何代码之前,我会运行的Git命令》的文章引发了广泛讨论。它提出了一个看似简单却颇具碘伏性的观点:代码呈现的是最

热心网友
05.19
Anthropic清理泄露源码引发“误伤”,逾八千个GitHub代码库被短暂下架
业界动态
Anthropic清理泄露源码引发“误伤”,逾八千个GitHub代码库被短暂下架

4月2日消息,人工智能公司Anthropic在处理未公开源代码泄露事件时出现操作失误,导致代码托管平台GitHub上逾8000个代码库被意外下架。目前该公司已撤回绝大部分下架要求。事件起因于本周二。

热心网友
04.07
Claude披露火狐浏览器22个漏洞与14项高危风险,安全规则需升级?
AI资讯
Claude披露火狐浏览器22个漏洞与14项高危风险,安全规则需升级?

机器之心编辑部近日,Anthropic 公布了一组惊人的数字,在与 Mozilla 公司进行合作,测试旗下模型 Claude Opus 4 6 发现漏洞能力的过程中,两周内,就找出 Mozilla

热心网友
03.09
OpenAI与思科合作:Codex助力企业软件修复效率提升15倍
科技数码
OpenAI与思科合作:Codex助力企业软件修复效率提升15倍

IT之家 1 月 21 日消息,据 OpenAI 正式 1 月 20 日最新公告,OpenAI 宣布与网络巨头思科(Cisco)达成深度合作。通过大规模部署 Codex(一款由 OpenAI 开发的

热心网友
01.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

企业网络安全等级保护合规指南:龙虾养殖业如何落地实施
AI资讯
企业网络安全等级保护合规指南:龙虾养殖业如何落地实施

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 随着企业数字化转型进入智能体(Agent)驱动的新阶段,如何平衡AI创新与安全合规成为关键挑战。尤其在《网络安全等级保护基本要求》(等保2 0)的严格框架下,企业级智能体的部署必须同时满足效率提升与合规保障的双

热心网友
05.23
外贸业务员年终总结PPT制作指南 AI高效提升总结效果
AI教程
外贸业务员年终总结PPT制作指南 AI高效提升总结效果

使用情景 对于外贸从业者来说,年终总结绝非简单的例行汇报。它是一次至关重要的年度复盘与战略规划,既要系统梳理过去一年的业绩成果与经验得失,也要为来年的市场开拓与业务增长指明清晰路径。在全球贸易竞争白热化的今天,一份逻辑严谨、数据详实、洞察深刻的总结报告,不仅是个人专业能力的集中体现,更是赢得管理层支

热心网友
05.23
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报
AI教程
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报

使用情景 又到年末了,年度安全工作总结是每个团队都绕不开的环节。这份总结的价值,远不止于一份简单的回顾。它更像是一份“体检报告”,清晰地告诉你过去一年安全工作的“健康状况”——哪里做得好,哪里还有隐患,从而为来年的精准施策打下坚实的基础。 不过,说起写总结、做PPT,不少人就开始头疼了:内容怎么组织

热心网友
05.23
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力
web3.0
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力

Zcash (ZEC) 月度暴涨520%:深度解析后市行情与关键点位 近期,隐私币龙头Zcash (ZEC) 上演了一场令人瞩目的行情,月度涨幅高达520%,价格一度逼近300美元,创下自2021年12月以来的新高。在加密市场整体承压的背景下,ZEC的逆势狂飙吸引了全球投资者的目光。本文将结合技术分

热心网友
05.23
电商售后数据自动汇总分析流程与智能化方案详解
AI资讯
电商售后数据自动汇总分析流程与智能化方案详解

在存量竞争的时代,电商售后数据早已超越了“成本中心”的单一角色,它正成为洞察产品质量、优化物流链路、提升用户忠诚度的核心战略资产。然而,现实往往骨感:多平台、多店铺、多套ERP系统并存,数据散落一地。靠人工手动汇总?不仅耗时费力,更关键的是,你永远无法实现真正的实时预警与敏捷响应。那么,电商售后数据

热心网友
05.23