最近,一条爆料在推特上炸开了锅:一位刚从Mistral离职的女员工群发邮件,直接抖出了公司的多项内幕。其中最劲爆的指控是——Mistral最新模型疑似直接“蒸馏”了DeepSeek,却对外包装成强化学习的成功案例,还刻意歪曲了基准测试结果。
说到Mistral,这家公司一直被称作欧洲版OpenAI,是全球开源AI领域的明星玩家,模型性能向来备受好评。也正因声誉突出,这次爆料才显得格外震撼。
早在今年6月,就有博主通过“语言指纹”分析,发现Mistral-small-3.2和DeepSeek-v3之间存在惊人的相似性。有意思的是,今年2月还有网友调侃DeepSeek是“中国的Mistral”,结果半年过去,剧情反转——Mistral不仅没跑赢DeepSeek,还被曝“借”了人家的成果。这波回旋镖,精准扎回自己身上。
Mistral 蒸馏 DeepSeek 实锤
正如开头提到的,推特博主Sam Peach通过分析模型输出中过度使用的词汇模式(Slop),发现Mistral-small-3.2与DeepSeek-v3之间高度相似。这种相似性通常很难通过独立训练偶然出现,所以很可能就是蒸馏的结果。
具体来说,Sam Peach的做法是:先统计模型在创意写作输出中比人类文本更常出现的词和n-gram,然后把这些数据整合成一个特征集,最后进行层次聚类,生成一张“相似性图”。通过比较图中模型的远近位置,就能看出Mistral-small-3.2和DeepSeek-v3在图中非常接近——这意味着它们的输出模式高度相似。
最新的爆料则进一步指明,这种相似不是巧合,而是可能使用了蒸馏。由于爆料人Susan Zhang的推特设置了可见范围,更多信息暂时无从得知。但这里需要说明,蒸馏本身并不是违规行为,现在很多模型都是通过这一方法快速提升能力。Mistral的问题在于,可能隐藏了这部分事实。
离职员工指出,Mistral这样做是在假装自家模型的强化学习有效,不仅歪曲了基准测试结果,也误导了公众。不少人认同这个观点:蒸馏模型必须标注,保持透明性才是关键。当然,也有网友认为,蒸馏实际上为模型开发开辟了一条捷径,让大家不用再重复造轮子。
官方暂无回应
这事之所以引发广泛争议,除了事件本身,更在于Mistral在开源AI圈的地位不低。它成立于2023年,base法国巴黎,一直被称为欧洲版OpenAI,由前Google DeepMind的Arthur Mensch和前Meta的Guillaume Lample与Timothée Lacroix联合创立。今年8月,Mistral被曝估值达到100亿美元,且正在筹集新一轮10亿美元融资。而在上一轮融资(2024年6月),Mistral完成了由General Catalyst领投的6亿欧元(约6.45亿美元)融资,估值上升至58亿欧元(约62亿美元),排名全球第四(美国湾区外排名第一)。
从公司成立以来,Mistral一直保持开源路线,今年开源的模型包括轻量级模型Mistral Small和主打编程的Mistral Code等。相较于主流大语言模型,主打开源、小快灵的Mistral在多语言处理和推理能力方面具备相当竞争力,在大模型市场中占据着独特地位。同时他们也推出了自家聊天机器人LeChat,对标ChatGPT,内置深度研究模式、原生多语言推理和高级图像编辑等功能。
截至目前,Mistral官方尚未回应。就在昨天,他们还发布了新模型Mistral Medium V3.1。
