5月30日,小米正式公开了MiMo-V2.5大模型推理系统的全链路优化技术细节。就在三天前,该系列API刚刚宣布永久降价,最高降幅高达99%。这一系列举措显然并非临时决定,而是技术成果直接反哺商业定价的典型实践。
从技术层面来看,小米针对Hybrid SWA+MoE+多模态这一复合架构,对推理栈进行了全面重构。其中最核心的亮点是KVCache存储的优化——其压缩率仅为同类方案的约七分之一。这意味着,长序列推理的成本被大幅降低,同时并未牺牲模型自身的能力。在相同的硬件条件下,能够实现更高的吞吐量和更低的延迟,这正是终端定价得以大幅下调的技术支撑。
值得一提的是,这一方案也是业界首个真正覆盖此类复合架构的大规模工程落地成果。它并非实验室中的参数展示,而是能够直接上线的硬核技术。

