蚂蚁百灵发布开源推理模型Ring-mini-2.0，轻量级架构耗时更少

近日，据百灵大模型公众号，蚂蚁百灵团队发布并开源了Ring-mini-2 0推理模型。它是基于此前蚂蚁百灵发布的基础语言模型 Ling 2 0 架构，深度优化的高性能推理型 MoE 模型。它在总参数

近日，百灵大模型官方公众号发布消息，蚂蚁百灵团队正式开源其最新研究成果——Ring-mini-2.0推理模型。这款基于Ling 2.0架构深度优化的MoE（专家混合）模型，在保持16B总参数量的同时，仅需激活1.4B参数就能发挥堪比10B级全参数模型的推理能力，尤其在逻辑推理、代码编写和数学运算等任务上展现出惊人实力，同时还具备128K超长上下文处理能力和每秒300+ token的生成速度。

经过Long-COT SFT训练、升级版RLVR（强化学习价值回归）以及RLHF（人类反馈强化学习）的联合调优，Ring-mini-2.0在复杂推理任务中的稳定性和泛化能力获得突破性提升。在LiveCodeBench、AIME 2025等高难度测试基准中，其性能不仅碾压同类10B规模的密集参数模型，部分指标甚至比肩更大规模的MoE模型（如gpt-oss-20B-medium），特别是在逻辑推理领域表现出色。

蚂蚁百灵发布轻量级推理模型

（Ring-mini-2.0性能表现）

技术层面，Ring-mini-2.0延续了Ling 2.0的高效MoE设计，通过1/32专家激活比和创新的MTP分层架构，仅激活1.4B参数就能实现7-8B全参模型的等效性能。其独创的小激活、高稀疏架构在H20硬件部署下可达300+ token/s的处理速度，配合Expert Dual Streaming推理优化后更能飙升至500+ token/s，显著降低了高并发场景下的推理成本。此外，借助YaRN外推技术支持的128K长文本处理能力，在长内容生成场景中可获最高7倍以上的性能加速。

蚂蚁百灵团队承诺将全面开源Ring-mini-2.0的模型权重、训练数据集及RLVR+RLHF联合训练方案。这款"小而强大"的推理模型有望成为中小规模AI应用的首选方案，为学术界和工业界提供极具价值的技术参考和实践平台。