12月3日,法国人工智能初创公司Mistral AI宣布推出其新一代Mistral 3系列模型。此次发布包含采用稀疏架构的首款混合专家模型Mistral Large,以及三款小型密集模型。
Mistral Large总参数量高达6750亿,其中活跃参数规模为410亿;Ministral 3"三兄弟"的参数规模则分别为140亿、80亿和30亿。这些模型及衍生版本均采用Apache 2.0许可证开源发布。
Mistral AI透露,使用3000块英伟达H200 GPU从头训练的Mistral Large 3,已成为全球顶尖的开放权重模型之一。


经过后续训练优化后,该模型在通用提示方面与市场上表现最佳的指令微调开放权重模型持平,同时在多语言对话、图像理解和行业专业领域展现出顶尖性能。Mistral Large 3在LMArena排行榜的OSS非推理模型类别中位列第二,在OSS总榜中排名第六。

针对参数规模较小的Ministral 3,Mistral AI称其实现了所有OSS模型中最优的性价比。这些模型的指令变体在性能上与同类模型相当甚至更优,同时生成的token数量通常降低了一个数量级。

