Mistral开源编程模型：大模型性能超Kimi、Qwen，小模型PC可运行

首页

AI资讯

热心网友

转载

2025-12-11

智东西
编译王欣逸
编辑程茜

智东西12月10日消息，昨晚，法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2，该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外，Mistral还同时推出了原生CLI工具Mistral Vibe，能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。

Devstral 2参数为123B，支持256K上下文窗口，可以探索代码库，并能在保持架构层面上下文理解的同时，进行跨文件协调更改；Devstral Small 2参数为24B，同样具备256K上下文窗口，支持快速推理和反馈，可以定制和本地部署，同时还支持图像输入，可应用于多模态Agents。

在SWE-bench Verified编程基准测试中，Devstral 2取得了72.2%的成绩，优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型，仅次于DeepSeek V3.2；Devstral Small 2取得了68.8%的成绩，超过GPT-OOS-120B，和GLM 4.6持平；在针对实际编程任务进行的人工测试中，Devstral 2表现优于DeepSeek V3.2。基准测试结果如下：

此外，在部署上，Devstral 2至少需要四块H100级GPU，更轻量化的Devstral Small 2可以在消费级硬件上本地运行。

Mistral Vibe是一个由Devstral驱动的开源命令行编程助手，集成了文件操作、代码搜索、版本控制及命令执行等工具。

Mistral AI是一家法国创企，成立于2024年，由前DeepMind和Meta研究人员成立，专注于开源模型开发。今年9月，该公司宣布获得17亿欧元（约合人民币139.9亿元）C轮融资，估值达到117亿欧元（约合人民币962.6亿元），英伟达曾三次投资这家公司。

一、基准测试位列开源第二，和顶尖闭源还有性能差距

据Mistral正式，Devstral 2 123B支持探索代码库，能跨多个文件协调修改，还能保持上下文理解。它可以跟踪框架依赖、检测故障，并能通过修正后重试，从而解决如修复错误、改造遗留系统等复杂挑战。

该模型支持微调，可针对特定编程语言进行优化，适配大型企业代码库的需求。

不过，Devstral 2以修改版的MIT协议发布，这一协议对大企业进行了限制：月收入超过2000万美元（约合人民币1.41亿元）的公司，在未获得Mistral单独商业许可的情况下，无法使用该模型。

更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制，可本地部署，同时还支持图像输入，可应用于多模态Agents。

从基准测试来看，Devstral 2模型位列开源模型的第二名，并正赶超顶尖闭源模型。

Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分，Devstral Small 2取得了68%的得分，在开源模型中已经达到了领先水平，Devstral 2的得分仅次于DeepSeek V3.2。

Devstral 2系列模型的亮点在于小参数设计，其模型在关键基准测试中展现出和顶尖开源模型齐平的性能，却仅需后者几分之一的参数量。

得分只比Devstral 2高0.9%的DeepSeek V3.2，其参数大小是Devstral 2的5倍，是Devstral Small 2的28倍，而表现次于Devstral 2的Kimi K2 Thinking，其参数大小是Devstral 2的8倍，是Devstral Small 2的41倍。

不过，Devstral 2系列模型与顶尖闭源模型之间还存在差距。

人工评测结果显示，在Cline构建的任务场景中，Devstral 2相对DeepSeek V3.2优势明显，胜率为42.8%，败率为28.6%。然而，Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来，胜率仅为21.4%，败率为53.1%。

二、端到端代码自动化，能进行架构级推理

Mistral Vibe是基于Devstral模型构建的开源命令行编程助手，能通过自然语言交互，接入IDE，实现对代码库的探索、修改与变更执行。

Mistral Vibe提供了一个交互式对话界面，集成了文件操作、代码搜索、版本控制及命令执行等工具。

它能自动扫描用户文件结构及Git状态，提供相关上下文信息，能理解整个代码库的架构，并进行架构级推理，此外，它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。

开发者可以通过脚本编程方式运行Mistral Vibe，启用工具执行的自动批准功能，通过简洁的config.toml配置文件管理本地模型与供应商设置，灵活控制工具权限。

结语：平衡高性能与小参数，为企业提供了低门槛解决方案

从Mistral 3到Devstral 2系列、Mistral Vibe，Mistral AI正以相当快的进击速度参与AI竞争，并在模型的高性能与轻量化间实现了平衡，从测试结果看，Devstral Small 2模型在参数仅为24B的情况下，依然优于不少开源模型，和GLM 4.6打平。

Mistral AI在公告中提到，Devstral 2系列模型专为生产级工作流打造，并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距，不过，对大多数企业而言，Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案，尤其是在和Mistral Vibe的搭配使用上，Devstral 2系列模型或将在特定的生产环节发挥作用。

来源：Mistral AI

来源:https://www.163.com/dy/article/KGEGESSK051180F7.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：余凯智驾突围：地平线如何定义物理世界新摩尔定律下一篇：Starcloud初創完成太空軌道模型訓練，創新行業首次

热门推荐

AI资讯

企业网络安全等级保护合规指南：龙虾养殖业如何落地实施

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成，并已由人工审核。随着企业数字化转型进入智能体（Agent）驱动的新阶段，如何平衡AI创新与安全合规成为关键挑战。尤其在《网络安全等级保护基本要求》（等保2 0）的严格框架下，企业级智能体的部署必须同时满足效率提升与合规保障的双

热心网友

05.23

AI教程

外贸业务员年终总结PPT制作指南 AI高效提升总结效果

使用情景对于外贸从业者来说，年终总结绝非简单的例行汇报。它是一次至关重要的年度复盘与战略规划，既要系统梳理过去一年的业绩成果与经验得失，也要为来年的市场开拓与业务增长指明清晰路径。在全球贸易竞争白热化的今天，一份逻辑严谨、数据详实、洞察深刻的总结报告，不仅是个人专业能力的集中体现，更是赢得管理层支

热心网友

05.23

AI教程

WPS AI一键生成年度安全工作总结PPT高效制作专业汇报

使用情景又到年末了，年度安全工作总结是每个团队都绕不开的环节。这份总结的价值，远不止于一份简单的回顾。它更像是一份“体检报告”，清晰地告诉你过去一年安全工作的“健康状况”——哪里做得好，哪里还有隐患，从而为来年的精准施策打下坚实的基础。不过，说起写总结、做PPT，不少人就开始头疼了：内容怎么组织

热心网友

05.23

web3.0

ZEC价格暴涨520%后还能买吗深度解析Zcash未来走势与投资潜力

Zcash (ZEC) 月度暴涨520%：深度解析后市行情与关键点位近期，隐私币龙头Zcash (ZEC) 上演了一场令人瞩目的行情，月度涨幅高达520%，价格一度逼近300美元，创下自2021年12月以来的新高。在加密市场整体承压的背景下，ZEC的逆势狂飙吸引了全球投资者的目光。本文将结合技术分

热心网友

05.23

AI资讯

电商售后数据自动汇总分析流程与智能化方案详解

在存量竞争的时代，电商售后数据早已超越了“成本中心”的单一角色，它正成为洞察产品质量、优化物流链路、提升用户忠诚度的核心战略资产。然而，现实往往骨感：多平台、多店铺、多套ERP系统并存，数据散落一地。靠人工手动汇总？不仅耗时费力，更关键的是，你永远无法实现真正的实时预警与敏捷响应。那么，电商售后数据

热心网友

05.23

Mistral开源编程模型：大模型性能超Kimi、Qwen，小模型PC可运行

相关攻略

热门专题

最新APP

热门推荐