先说说一个最新的动态。法国AI公司Mistral AI最近又放了两款新模型出来——一个面向程序员和开发者的代码生成模型Codestral Mamba 7B,另一个是专为数学推理和科学发现设计的Mathstral 7B。这两个家伙在各自的赛道上都挺有看头的。
Codestral Mamba 7B的核心卖点是推理速度快、上下文处理能力强。它基于Mamba架构设计——这个架构去年由其他研究人员提出,出发点就是简化Transformer模型那套复杂的注意力机制,从而提升效率。效果也很直接:即使输入文本很长,响应时间依然很可观。具体参数上,它能处理多达256,000个token的输入,这个容量是GPT-4o的两倍。而且根据Mistral AI自己的测试,在HumanEval这类基准上,它的表现明显优于CodeLlama 7B、CodeGemma-1.1 7B和DeepSeek等开源竞争对手。该模型通过Apache 2.0许可证开源,开发人员可以直接从GitHub和HuggingFace上下载、修改和部署。

▲(图源:Mistral AI)
值得关注的是,代码生成和编码助手这条赛道已经卷得相当厉害了。从GitHub Copilot到Amazon CodeWhisperer再到Codenium,每个都在争抢用户的键盘。Mistral AI在这个时间点推出Codestral Mamba,显然是想在开源代码生成模型这块占据一个更有分量的位置。更早版本的CodeLlama 70B和DeepSeek Coder 33B已经被它的早期版本超越,这次新架构加持的7B版本究竟能拉开多大差距,值得持续观察。
代码生成模型:更长的上下文,更快的推理
从技术路线来看,Codestral Mamba 7B的架构升级是一个关键。区别于我们熟悉的Transformer架构,Mamba架构通过简化注意力机制来提升效率。这意味着,基于Mamba的模型在处理长文本输入时,推理速度能保持稳定,不太会出现token堆积后的性能衰减——这对于需要处理大量代码文件的本地开发场景,是一个刚性需求。
目前,包括AI21在内的公司已经基于Mamba架构推出了自己的模型,这个方向正在被越来越多的人关注。Mistral AI表示,该模型将在其la Plateforme API上免费使用,开发者可以零门槛上手实验。
数学推理模型:专为复杂推理而生
再说第二个模型Mathstral 7B。这个家伙的任务很明确:数学推理和科学发现。它基于Project Numina开发,拥有32K的上下文窗口,同样通过Apache 2.0许可证发布。Mistral AI声称,在所有专门为数学推理设计的模型中,它的表现是最好的,而且随着推理时间计算资源的增加,它能在基准上获得“明显更好的结果”。

▲(图源:Mistral AI)
更关键的是,它在“微调”能力上做了针对性的优化——这意味着用户不只能拿来就用,还可以针对特定方向进行二次训练。Mistral AI在博客中直言:“Mathstral是另一个例子,展示了当为特定目的构建模型时,能够实现出色的性能——这也是我们在la Plateforme中积极推广的开发理念。”
用户可以通过Mistral AI的la Plateforme或HuggingFace直接访问这个模型。
结语:大模型性能之战卷出新高度
从产业视角来看,Mistral AI这次的布局透露出两个关键信号。第一,AI工具正在加速向专业化方向发展。不再是“一个模型通吃所有”,而是针对代码、数学等特定场景打造极致性能。第二,开源AI的参与感在增强。通过释放Codestral Mamba 7B和Mathstral 7B这样的模型,Mistral AI正在用一种更透明、更协作的方式参与竞争——这与OpenAI和Anthropic的封闭路线形成了鲜明对比。
别忘了,这家公司刚在B轮融资中筹集了6.4亿美元,估值接近60亿美元,背后还站着微软和IBM等科技巨头。从商业层面看,Mistral AI已经不仅是一个实验室项目,而是真正具备分发能力的AI公司。这些新模型是否会进一步推动开源大模型的迭代速度,我们很快就能看到答案。
