首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
小米罗福莉解读MiMo API降价策略 原始推理成本优势显著

小米罗福莉解读MiMo API降价策略 原始推理成本优势显著

热心网友
24
转载
2026-05-28

昨天,小米MiMo团队扔下了一枚“价格冲击波”:其MiMo-V2.5系列API宣布永久降价,最高降幅达到了惊人的99%,并且不再按上下文长度区分计价。这无疑给本就火热的大模型API市场,又添了一把猛火。

小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡

消息一出,市场议论纷纷。如此力度的降价,背后是技术驱动的成本革命,还是赔本赚吆喝的市场策略?很快,小米MiMo负责人罗福莉在社交平台发文,亲自拆解了这次降价背后的技术逻辑。她的解释,或许为我们理解大模型商业化的未来,提供了一个清晰的剖面。

降价背后的技术底气:从缓存优化到架构革新

罗福莉的解读直指核心。这次降价幅度最大的部分——输入(缓存命中)成本最高降99%,其根基在于推理框架的一项关键优化:针对SWA(Sliding Window Attention,滑动窗口注意力)的分层KV缓存。生产环境测试表明,这项优化将有效的缓存Token容量提升了5倍,相当于直接砍掉了80%的缓存成本。再加上Hybrid模型中多个全注意力模块之间的缓存读取重叠技术,实际成本被进一步压低。

而输入(未命中缓存)和输出的价格也下降了60%到80%,这就要归功于模型架构的先天优势了。MiMo-V2.5-Pro达到了极致的1:7全注意力与SWA稀疏比。这意味着,一个70层的模型,其预填充计算量仅相当于一个10层的GQA(分组查询注意力)模型。这种架构上的高效,使得其原始推理成本远低于行业平均水平,在定价上天然就留出了2到3倍的利润空间。所以,这次调价,本质上是一次“技术红利”的释放,是把结构性的成本优势,直接让渡给了开发者生态。

“收支平衡”下的良性循环:什么才是健康的降价?

更值得玩味的是罗福莉透露的另一个信息:即使在新的、更低的API价格下,他们的生产推理引擎在接近满负载运行的同时,依然能基本维持收支平衡。

这恰恰印证了他们此前的一个观点:大模型公司不应“盲目降价”。因为如果没有底层模型架构和推理优化能力作为护城河,大幅降价无异于自杀式亏损。真正的健康降价,必须建立在技术驱动的成本下降之上。如果未来能有更多节省计算量和KV缓存的创新架构涌现,再配合更高效的推理基础设施,整个行业就能进入一个“成本下降 → 价格降低 → 需求扩大 → 规模效应进一步摊薄成本”的绝佳良性循环。

超越商业:降价如何撬动AI基础设施的全局

当然,眼光还可以放得更长远一些。合理价格下的高性能模型API,其意义远不止于一场商业竞争。它将直接驱动真实、持续且大规模的用户推理需求。这种来自应用层、源源不断的需求,会成为拉动整个AI基础设施产业链的火车头——从底层的芯片、服务器、光模块、PCB,到配套的液冷、电力、储能乃至数据中心建设,都将获得坚实的增长支点。

从战略视角看,这相当于为AI硬件进行了一次系统性的价值重估。而长远来看,更廉价、更易获取的推理算力,将被反哺到训练管线中,最终加速全球范围内多条技术路线并行的AGI演进进程。

一次技术驱动的降价,其涟漪效应可能远超我们当下的想象。小米MiMo的这次动作,不仅展示了其技术储备,更可能是在为整个行业探索一条可持续的、通过技术革新普惠生态的发展路径。据透露,更多关于此次优化背后的技术细节,将在后续的博客文章中详细披露,值得持续关注。

来源:https://www.ithome.com/0/956/280.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

小米罗福莉解读MiMo API降价策略 原始推理成本优势显著
AI资讯
小米罗福莉解读MiMo API降价策略 原始推理成本优势显著

小米MiMo-V2 5系列API最高降价99%,因关键技术优化与高效架构使推理成本显著低于行业水平。新价格下,即使接近满负载运行,其推理引擎仍能基本维持收支平衡。此举旨在释放技术红利,推动行业进入成本下降、需求扩大的良性循环,长远或促进AI基础设施发展与AGI演进。

热心网友
05.28
罗福莉事件始末回顾与反思
业界动态
罗福莉事件始末回顾与反思

上次关于小米MiMo-V2-Pro的文章,结结实实地被“打脸”了。当时质疑其只公布有“水分”的SWE-bench Verified成绩,而回避了更硬核的SWE-bench Pro测试。结果,在V2 5-Pro的宣传中,小米直接把SWE-bench Pro的成绩放在了榜首,并在OpenRouter的模

热心网友
05.12
小米罗福莉谈Anthropic封杀OpenClaw:真正的出路并非更便宜Token!
业界动态
小米罗福莉谈Anthropic封杀OpenClaw:真正的出路并非更便宜Token!

小米罗福莉谈Anthropic封杀OpenClaw:真正的出路并非更便宜Token! 这几天,AI圈子被一则消息震动了:Anthropic突然出手,切断了像OpenClaw这类第三方框架通过Claude订阅服务的调用通道。这一刀下去,可谓一石激起千层浪。 那么,Anthropic为何如此果断?官方给

热心网友
04.14
罗福莉:各位醒醒吧,该结束token虚假狂欢了
科技数码
罗福莉:各位醒醒吧,该结束token虚假狂欢了

作者 | 董道力邮箱 | dongdaoli@pingwest com这两天,所谓“Anthropic封禁OpenClaw”的报道铺天盖地,但事实上Anthropic 是停止了OpenClaw这

热心网友
04.07
小米罗福莉:OpenClaw 是 Agent 框架的颠覆性事件,开源特性拉高国内开源模型上限
AI资讯
小米罗福莉:OpenClaw 是 Agent 框架的颠覆性事件,开源特性拉高国内开源模型上限

小米罗福莉:OpenClaw 是 Agent 框架的颠覆性事件,开源特性拉高国内开源模型上限 3月27日,2026中关村论坛年会的《OpenClaw与AI开源圆桌会议》在京举行。会上,小米集团MiMo负责人罗福莉对近期大热的OpenClaw发表了自己的看法。 谈及OpenClaw,罗福莉的评价非常直

热心网友
03.31

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

仓位管理的重要性:为什么满仓操作是投资大忌与风险控制核心
web3.0
仓位管理的重要性:为什么满仓操作是投资大忌与风险控制核心

为什么不能满仓操作?仓位管理是风险控制的第一道防线 在加密市场的惊涛骇浪中,一个核心原则被反复验证:满仓操作,无异于将自己置于毫无退路的悬崖边缘。它背后潜藏着五大风险:市场不确定性下的单点暴露、心理压力导致决策失衡、错失动态再平衡机会、杠杆叠加加剧爆仓、链上痕迹削弱抗审查能力。理解这些风险,是构建稳

热心网友
05.28
联想百应AI 3.0首创成长型企业词元经济闭环方案
业界动态
联想百应AI 3.0首创成长型企业词元经济闭环方案

对于成长型企业而言,部署AI的最大挑战往往不在于技术本身,而在于算力成本宛如一笔糊涂账——每月支出多少、流向何处、下月预算如何规划,几乎全凭估算。联想最新推出的百应AI 3 0版本,正是精准回应了这一难题。 本次,联想首次为成长型企业打造了一套覆盖全链路的词元经济解决方案,其核心理念极为简洁:将算力

热心网友
05.28
WPS多维表格百万行32ms性能重新定义协作新高
AI教程
WPS多维表格百万行32ms性能重新定义协作新高

上周,金山办公在武汉举办了WPS AI NEXT线下路演,现场发布的新一代WPS多维表格,凭借一份硬核成绩单引发行业关注。在权威表格智能体评测榜单SpreadSheetBench最新排名中,WPS多维表格的AI智能引擎位列全球第二,仅次于谷歌,充分展现了国产办公软件的AI实力。 当前,多维表格赛道竞

热心网友
05.28
问剑长生宗门联赛S3赛季全新玩法详解与攻略
游戏资讯
问剑长生宗门联赛S3赛季全新玩法详解与攻略

宗门联赛S3赛季引入三线对抗机制,增加排兵布阵博弈;新增战术设计可禁用特定秘术,强化情报收集。同时加入挂机功能降低参与门槛,匹配机制优化提升公平性,位面加速缩短比赛耗时,满足不同玩家需求。

热心网友
05.28
Motive物理AI运营平台迎来重大升级
AI资讯
Motive物理AI运营平台迎来重大升级

车队运营团队普遍面临两个核心痛点:工具碎片化、手动流程耗时严重。在近期举办的Vision 26峰会上,Motive一口气发布了集成硬件与人工智能的多项创新方案,矛头直指这两个痼疾,将其物理AI运营平台的边界大幅外扩。从本质上看,这套新方案要解决的是一个老问题:如何把散落在不同系统里的数据整合到一个统

热心网友
05.28