最近一次访谈中,欧洲版OpenAI的联合创始人兼CEO Arthur Mensch声称,DeepSeek-V3是在Mistral提出的架构基础上构建的。这一说法在网络上引发了广泛争议。不少网友对此提出质疑,认为其中存在诸多不合理之处。
Arthur Mensch提到,Mistral是最早发布开源模型的公司之一,而中国开源AI的强势发展让他们看到了开源策略的优势。他强调,开源并非真正的竞争,大家是在彼此的基础上不断进步。他举例说,Mistral在2024年初发布了首个稀疏混合专家模型(MoE),而DeepSeek-V3及其后续版本都基于此架构构建,且Mistral公开了重建这种架构所需的一切。
然而,网友们指出,DeepSeek的MoE论文发布时间与Mistral论文仅相差三天,且两者架构思路并不相同。此前,Mistral 3 Large甚至被指基本照搬了DeepSeek-V3的架构。从数学公式来看,两者虽都采用GShard风格的Top-K路由器,但DeepSeek改变了传统MoE架构中的门控机制和专家结构。在专家粒度和数量方面,Mixtral沿用标准MoE设计,DeepSeek则提出细粒度专家分割,使专家组合更灵活。在路由机制上,Mixtral中专家地位平等,DeepSeek引入共享专家,实现了知识分布的解耦。
此外,有网友提到,Mixtral的论文并未提及训练细节,仅提到采用Google GShard架构和简单的路由机制。而2025年12月发布的Mistral 3 Large被发现直接沿用了DeepSeek-V3的架构。网友们认为,Mistral试图通过岁月史书来挽回面子,但DeepSeek在稀疏MoE、MLA等技术上已获得更大影响力。有网友调侃,现在的Mistral已非曾经惊艳大模型开源圈的那个Mistral了。
