欧洲版OpenAI：CEO详解DeepSeek-V3架构争议与构建初衷

在最近一次访谈中，欧洲版OpenAI的联合创始人兼CEO Arthur Mensch表示DeepSeek-V3是在Mistral提出的架构上构建的，此言论在网络上引发了广泛争议。网友们对这一说法表示

最近一次访谈中，欧洲版OpenAI的联合创始人兼CEO Arthur Mensch声称，DeepSeek-V3是在Mistral提出的架构基础上构建的。这一说法在网络上引发了广泛争议。不少网友对此提出质疑，认为其中存在诸多不合理之处。

Arthur Mensch提到，Mistral是最早发布开源模型的公司之一，而中国开源AI的强势发展让他们看到了开源策略的优势。他强调，开源并非真正的竞争，大家是在彼此的基础上不断进步。他举例说，Mistral在2024年初发布了首个稀疏混合专家模型（MoE），而DeepSeek-V3及其后续版本都基于此架构构建，且Mistral公开了重建这种架构所需的一切。

然而，网友们指出，DeepSeek的MoE论文发布时间与Mistral论文仅相差三天，且两者架构思路并不相同。此前，Mistral 3 Large甚至被指基本照搬了DeepSeek-V3的架构。从数学公式来看，两者虽都采用GShard风格的Top-K路由器，但DeepSeek改变了传统MoE架构中的门控机制和专家结构。在专家粒度和数量方面，Mixtral沿用标准MoE设计，DeepSeek则提出细粒度专家分割，使专家组合更灵活。在路由机制上，Mixtral中专家地位平等，DeepSeek引入共享专家，实现了知识分布的解耦。

此外，有网友提到，Mixtral的论文并未提及训练细节，仅提到采用Google GShard架构和简单的路由机制。而2025年12月发布的Mistral 3 Large被发现直接沿用了DeepSeek-V3的架构。网友们认为，Mistral试图通过岁月史书来挽回面子，但DeepSeek在稀疏MoE、MLA等技术上已获得更大影响力。有网友调侃，现在的Mistral已非曾经惊艳大模型开源圈的那个Mistral了。