小米MiMo V2 Flash架构解析:低成本高性能,媲美开源头部模型
小米近日正式发布并开源了全新大模型MiMo-V2-Flash。该模型拥有3090亿总参数与150亿活跃参数的规模配置,在核心评测中其性能表现已能和DeepSeek-V3.2、Kimi-K2等头部开源模型展开有力竞争。更关键的是,它采用业内领先的专家混合架构(MoE),并凭借架构层面的突破性创新,将推理速度大幅提升至每秒钟150个token,同时把输入成本压缩到每百万token仅需0.1美元,输出成本降至0.3美元,在性价比维度树立了新的行业标杆。

在权威基准测试中,MiMo-V2-Flash展现了多维度领先优势。它在AIME 2025数学竞赛与GPQA-Diamond科学知识测试中均位列开源模型前两名;其编程能力尤为出色,在SWE-bench Verified测试中获得73.4%的高分,超越了所有开源竞品,甚至逼近GPT-5-High的水平。这项测试要求AI模型真实修复软件代码缺陷,73.4%的成功率意味着它已具备解决大部分实际编程问题的能力。在多语言编程测试SWE-Bench Multilingual中,模型更以71.7%的解决率,进一步验证了其跨语言编程开发的强大实力。
针对智能体任务的测试数据显示,该模型在τ²-Bench分类任务评测中表现亮眼:通信类得分95.3、零售类79.5、航空类66.0。在BrowseComp搜索代理基准测试中,基础得分为45.4,而在启用上下文长期记忆功能后,得分跃升至58.3。这些成绩表明MiMo-V2-Flash不仅能处理代码生成等单一任务,更能理解复杂业务逻辑并执行多轮智能体交互。值得关注的是,其文本生成质量也已接近顶级闭源模型,具备了成为全能型日常助手的潜力。
支撑模型实现性能突破的,是两项核心技术。其一为混合滑动窗口注意力机制:它通过5层滑动窗口(每层128 token)与1层全局注意力的交替创新设计,使KV缓存的存储消耗降低了近6倍,同时成功维持了256k的超长上下文处理能力。其二为轻量级多Token预测模块:该模块能并行生成2.8至3.6个token,从而将推理速度提升2到2.6倍,并在训练阶段实现了采样效率的同步优化。研究团队特别指出,经过大量实验验证,128 token的窗口大小被证实是性能与效率之间的“最佳甜点”,盲目扩大窗口反而会导致整体性能下降。

在训练效率方面,模型采用FP8混合精度技术,在2.7万亿token的数据集上完成了预训练,并原生支持32k序列长度。后续训练阶段创新性地提出了“多教师在线策略蒸馏”方法,通过学生模型自主采样、多专家教师实时反馈的机制,仅需传统方法1/50的计算资源即可达到同等性能峰值。该框架还支持动态接入新的教师模型,由此形成“教学相长”的闭环进化系统。
针对开发者应用场景,MiMo-V2-Flash提供256k上下文窗口,可稳定支持数百轮智能体交互与工具调用,并能与Claude Code、Cursor等主流开发环境无缝兼容。技术团队基于真实的GitHub issue构建了超过10万个验证任务,并通过Kubernetes集群实现了10000+并发Pod部署,环境部署的成功率达到了70%。在网页开发任务中引入的多模态验证器,通过视频录制替代静态截图来验证代码执行结果,有效减少了因视觉幻觉导致的问题。
目前,小米已将完整模型细节、推理代码及基础权重,通过MIT许可协议在Hugging Face平台开源,并在LMSYS博客分享了详细的优化经验。该模型现已在API Platform开放限时免费调用,开发者可直接接入体验。
热门专题
热门推荐
MiniCPM-o 4 5是什么 在探索更自然、更智能的人机交互道路上,我们始终在期待一个“全能型选手”的到来。如今,这个角色或许已经登场。面壁智能最新开源的MiniCPM-o 4 5,一个仅拥有90亿参数的全模态大模型,正致力于重新划定“智能对话”的边界。 它彻底颠覆了传统一问一答的“对讲机”式交
Binance币安 欧易OKX ️ Huobi火币️ 想在2025年安全获取欧易OKX的正版APP?其实秘诀就一个:认准官方网站,避开所有仿冒和可疑的下载渠道。要知道,欧易现已统一更名为欧易OKX,其核心业务始终围绕数字资产交易及相关服务展开。 确认官方网站地址 第一步,打开浏览器,手动输入欧易OK
SecondMe Book是什么 在AI社交这一前沿赛道,一款国产平台正带来独特的解决方案。SecondMe Book,本质上是一个能够让你构建个人AI数字分身的创新平台。它允许用户创建一个能够代表真实自我风格与思维的AI数字身份,并让这个“第二自我”在一个专属的AI社交网络中自主运行——包括主动发
在AI大模型技术快速发展的今天,如何在卓越性能与高效推理成本之间取得最佳平衡,已成为行业关注的核心焦点。近期,由阶跃星辰推出的开源模型Step 3 5 Flash引发了广泛热议。该模型专为智能体(AI Agent)应用场景深度优化,旨在顶尖能力与亲民部署成本之间,构建一个极具竞争力的技术支点。 简而
LongCat-Flash-Lite是什么 在探索大语言模型性能与效率的最佳平衡点时,美团近期推出的LongCat-Flash-Lite提供了一个极具创新性的解决方案。作为新一代高效大语言模型,它凭借其突破性的架构设计,在人工智能领域获得了广泛关注。 简而言之,该模型创新性地融合了“混合专家系统(M





