2026年小米 MiMo V2.5 最新官方API定价与计费标准全面详解

时间：2026-06-07 16:58

先说几个核心判断：2026年5月27日，小米将MiMo V2 5 API的价格直接打到了地板价——每百万input tokens仅需1美元，output tokens每百万3美元，而且团队明确表态：这个价格永久有效。这意味着，过去那种“上下文越长、价格越离谱”的阶梯定价模式彻底翻篇了。无论你的pro

先说几个核心判断：2026年5月27日，小米将MiMo V2.5 API的价格直接打到了地板价——每百万input tokens仅需1美元，output tokens每百万3美元，而且团队明确表态：这个价格永久有效。这意味着，过去那种“上下文越长、价格越离谱”的阶梯定价模式彻底翻篇了。无论你的prompt是几千token还是接近100万token，统统一个价。对大多数应用场景来说，结论很直接：MiMo V2.5已经跻身市面上最便宜的1M上下文模型前三名，而且这个地位短期内不会动摇。

TL;DR

2026年5月27日起，小米MiMo V2.5永久定价方案：input $1.00/百万tokens，output $3.00/百万tokens，cached $0.20/百万tokens，支持1M-token上下文窗口。
所谓“最高99%优惠”并非夸张。旧方案在超过256K input tokens后会大幅加价，新方案完全取消了这种阶梯倍率。
Token Plan用户获得了5到8倍的额度提升，且有效期内已使用的额度全额返还。
这次降价是永久性的，不是限时促销。小米官方公告明确表示要“永久革新整个模型定价体系”。
背景补充：这是本周内第二家对旗舰模型进行永久性降价的中国实验室。三天前，DeepSeek刚刚把V4-Pro的永久价格降到了原价的四分之一。

2026年5月27日发生了什么

这次价格更新公告一共涉及三项调整，全部于北京时间5月27日零点（UTC时间5月26日16:00）正式生效。

小米 MiMo V2.5 2026 年 API 定价详解

第一，跨上下文窗口统一价格。 旧版MiMo V2.5采用的是阶梯费率：32K input tokens以内是基础价，32K到256K之间开始加价，超过256K的费率更高。新方案对所有token类型只设一个统一价格。长上下文应用终于不用再交那笔“长上下文税”了。

第二，永久性降价，不是促销。 公告里两次提到“永久降价”，一次提到“永久革新整个模型定价体系”。没有截止日期，没有回滚条款。这就是新的官方标价，请直接当作常态化定价来对待。

第三，Token Plan奖励重置。 如果你用的是小米的预付费额度系统（Token Plan），你的信用余额直接增加了5到8倍，而且有效期内已经消耗的每一分额度都全额返还。不过有效期本身没有延长——算是预算红利，但不是时间红利。

小米 MiMo V2.5 2026 年 API 定价详解

标题里“最高99%优惠”的说法放在长上下文场景下完全成立。之前256K+ input tokens的价格确实高得离谱，现在统一降到$1/M，等于降幅超过90%。对于原本就在基础层级跑的工作负载，降幅虽然没那么夸张，但也相当可观了。

模型	Input	Output	Cached	Context
MiMo V2.5 Pro	$1.00	$3.00	$0.20	1M tokens
MiMo V2 Flash	~$0.10	~$0.40	$0.02	256K tokens

除了价格，MiMo V2.5还升级了什么

5月27日的公告本质上是一次定价调整，但V2.5本身相比4月发布的V2-Pro确实是一次重大升级。有三个变化值得关注：

更长的实际可用上下文。 V2.5 Pro保留了1M-token的理论窗口，但小米重点改进了200K到800K区间的检索质量——大多数长上下文模型在这个区间性能会明显下降。在800K tokens范围内，大海捞针（Needle-in-haystack）准确率保持在95%以上。
更好的tool-call格式合规性。 V2-Pro处理流式响应中的并行tool calls时，存在返回格式错误JSON的已知问题。V2.5虽然没完全根除这个问题，但故障率大幅降低。无论如何，还是建议自己做JSON schema验证。
更新的训练数据。 V2.5使用了截至2026年第一季度的数据进行训练，知识截止日期比V2-Pro领先大约三个月。

这些改进可能不是那种能上头条的基准测试数据，但它们在真实的生产部署中会实打实地体现出来。把更低的价格和更长、更可靠的上下文窗口结合起来，你会发现一个5月27日之前根本不存在的选项——适合严肃长文档工作的API。

MiMo V2.5 vs 竞品：怎么选？

有意思的对比不是V2.5和它自己旧版本的对比，而是和2026年5月在售的其他旗舰级API选项的对比：

模型	Input ($/MTok)	Output ($/MTok)	Context
Xiaomi MiMo V2.5 Pro	$1.00	$3.00	1M
DeepSeek V4-Pro	$0.435	$0.87	128K
GPT-5.5	$5.00	$30.00	200K
Claude Opus 4.7	$3.00	$15.00	200K
Gemini 3.5 Flash	~$1.50	~$9.00	1M

三个关键结论：

按单token算，DeepSeek V4-Pro仍然比MiMo V2.5便宜。 Input便宜约2.3倍，output便宜约3.5倍。如果你只看原始token成本，DeepSeek占优。
但在1M上下文工作负载中，MiMo V2.5胜出。 表格里另一个1M上下文选项只有Gemini 3.5 Flash，但它的input贵1.5倍，output贵3倍。
MiMo V2.5的input比GPT-5.5便宜5倍，output便宜10倍。 而根据Artificial Analysis的数据，两者基准测试性能相当。

关于DeepSeek的对比，可以看DeepSeek V4-Pro 75%降价现已转为永久。这两篇文章放在一起看会更有意思——都覆盖了本周中国实验室对旗舰级模型的永久性降价。

三个实际场景，三张新账单

用新的永久费率算三个具体案例：

1. 企业级PDF的长文档RAG。 每天50,000次查询，每次800K-token上下文，1K-token回答。用旧的MiMo V2.5长上下文层级（估计有效费率$50/M）：每月约$60,000。新的统一费率：每月约$1,225。节省了$58,775/月。

2. 代码审查Agent。 每天5,000个pull requests，30K-token代码库上下文，2K-token评论输出。用旧的GPT-5.5：每月约$5,250。用新的MiMo V2.5：约$510。节省了$4,740/月。

3. 客户支持聊天机器人。 每天200,000轮对话，4K-token system prompt，300-token响应。用旧的Claude Opus 4.7：每月约$11,250。用新的MiMo V2.5：约$805。节省了$10,445/月。

第一个场景就是MiMo V2.5真正发力的地方。这次降价之前，长上下文任务在任何旗舰API上都贵得离谱。现在不一样了。以前必须送到摘要器和分块流水线的文档，现在可以直接整体扔给模型，再也不用做token预算的“体操”优化了。

关于缓存命中（Cache Hits）

$0.20/M的缓存输入费率比$1.00的缓存未命中费率便宜5倍。虽然比不上DeepSeek 120:1的缓存折扣，但对于任何复用稳定system prompt的Agent来说，这个节省依然可观。

举个例子。假设你的助手用一个6,000-token的system prompt，每天处理80,000轮对话，平均用户消息250 input tokens，平均响应600 output tokens：

无缓存命中：80,000轮 × 6,250 input × $1.00 / 1,000,000 = 仅input每天就$500。
system-prompt前缀有60%缓存命中：80,000 × (250 × $1.00 + 6,000 × (0.6 × $0.20 + 0.4 × $1.00)) / 1,000,000 = 每天约$271。降幅46%。

虽然比不上DeepSeek缓存带来的88%降幅，但一个input成本$500/天的负载，减半也是实打实的真金白银。技巧和其他提供商一样：固定system prompt，稳定排序检索到的上下文，不要在回复前缀里注入每请求的时间戳。

什么时候选MiMo V2.5，什么时候不选

新的定价让MiMo V2.5成了两类工作负载的首选，但对另一类来说则是较差的选项。

推荐场景：

长文档RAG、代码库Agent、全库重构。 任何自然适合>200K-token context的任务。统一价格加上1M窗口，在廉价层级里是无敌的。
高吞吐量文档处理。 价格可预测，缓存费率（$0.20/M）让你能廉价地批量处理相同前缀。

回避场景：

对延迟敏感的交互式聊天。 MiMo V2.5 Pro不是首个token响应最快的模型。对于预输入、自动补全或亚秒级聊天，DeepSeek V4-Flash或Gemini 3.5 Flash在相似成本下延迟表现更好。

注意事项：

数据驻留。 调用通过小米在中国的服务器路由。和DeepSeek一样的采购考量。
可靠性。 小米的第一方API运营历史比美国托管的旗舰模型短。对于有SLA保障的生产环境，建议通过OpenRouter或其他聚合器路由。
函数调用对齐。 在schema层面兼容OpenAI，但在流式工具参数和并行工具调用方面存在边缘情况。上线前务必测试。

关于V2.5之前的V2-Pro发布背景，可以看小米刚刚发布了自己的AI模型，且在OpenRouter上免费。关于免费层级的入门，小米MiMo Orbit免费100T token计划涵盖了资格和注册细节。

2026年LLM价格战的格局

MiMo V2.5是本周内第二家中国实验室进行的永久性旗舰级降价。DeepSeek在5月22日把V4-Pro永久降到了原价的四分之一。Kimi K2在Q1早些时候也降了价。OpenAI O3在2月份降价80%。模式很清楚：

中国实验室在价格上竞争。 这些降价不是促销噱头，是结构性的。
美国实验室在能力和捆绑上竞争。 OpenAI和Anthropic维持旗舰层级的价格，同时发布新功能（思考模式、MCP servers、Agent工作流）来证明溢价的合理性。
基准测试差距已经足够小，大多数工作负载都值得重新测试。根据Artificial Analysis的数据，在大多数编码和推理任务中，MiMo V2.5与GPT-5.5的差距仅在个位数百分点内。

更多信息：