游乐游手机版
首页/AI教程/文章详情

2026年小米 MiMo V2.5 最新官方API定价与计费标准全面详解

时间:2026-06-07 16:58
先说几个核心判断:2026年5月27日,小米将MiMo V2 5 API的价格直接打到了地板价——每百万input tokens仅需1美元,output tokens每百万3美元,而且团队明确表态:这个价格永久有效。这意味着,过去那种“上下文越长、价格越离谱”的阶梯定价模式彻底翻篇了。无论你的pro

先说几个核心判断:2026年5月27日,小米将MiMo V2.5 API的价格直接打到了地板价——每百万input tokens仅需1美元,output tokens每百万3美元,而且团队明确表态:这个价格永久有效。这意味着,过去那种“上下文越长、价格越离谱”的阶梯定价模式彻底翻篇了。无论你的prompt是几千token还是接近100万token,统统一个价。对大多数应用场景来说,结论很直接:MiMo V2.5已经跻身市面上最便宜的1M上下文模型前三名,而且这个地位短期内不会动摇。

TL;DR

  • 2026年5月27日起,小米MiMo V2.5永久定价方案:input $1.00/百万tokens,output $3.00/百万tokens,cached $0.20/百万tokens,支持1M-token上下文窗口。
  • 所谓“最高99%优惠”并非夸张。旧方案在超过256K input tokens后会大幅加价,新方案完全取消了这种阶梯倍率。
  • Token Plan用户获得了5到8倍的额度提升,且有效期内已使用的额度全额返还。
  • 这次降价是永久性的,不是限时促销。小米官方公告明确表示要“永久革新整个模型定价体系”。
  • 背景补充:这是本周内第二家对旗舰模型进行永久性降价的中国实验室。三天前,DeepSeek刚刚把V4-Pro的永久价格降到了原价的四分之一。

2026年5月27日发生了什么

这次价格更新公告一共涉及三项调整,全部于北京时间5月27日零点(UTC时间5月26日16:00)正式生效。

小米 MiMo V2.5 2026 年 API 定价详解

第一,跨上下文窗口统一价格。 旧版MiMo V2.5采用的是阶梯费率:32K input tokens以内是基础价,32K到256K之间开始加价,超过256K的费率更高。新方案对所有token类型只设一个统一价格。长上下文应用终于不用再交那笔“长上下文税”了。

第二,永久性降价,不是促销。 公告里两次提到“永久降价”,一次提到“永久革新整个模型定价体系”。没有截止日期,没有回滚条款。这就是新的官方标价,请直接当作常态化定价来对待。

第三,Token Plan奖励重置。 如果你用的是小米的预付费额度系统(Token Plan),你的信用余额直接增加了5到8倍,而且有效期内已经消耗的每一分额度都全额返还。不过有效期本身没有延长——算是预算红利,但不是时间红利。

小米 MiMo V2.5 2026 年 API 定价详解

标题里“最高99%优惠”的说法放在长上下文场景下完全成立。之前256K+ input tokens的价格确实高得离谱,现在统一降到$1/M,等于降幅超过90%。对于原本就在基础层级跑的工作负载,降幅虽然没那么夸张,但也相当可观了。

最新的永久价格表

每100万tokens的价格(美元),立即生效且永久有效:

模型InputOutputCachedContext
MiMo V2.5 Pro$1.00$3.00$0.201M tokens
MiMo V2 Flash~$0.10~$0.40$0.02256K tokens

表格之外,有几个细节值得留意:

  • 缓存费率(V2.5 Pro是$0.20/M)相当于input费率的五分之一。这个比例比不上DeepSeek的120:1(input-miss与input-hit之比)。小米的缓存对重复的system prompts当然有用,但绝对节省额度没那么大。
  • 1M上下文窗口这一点,大多数文章都低估了它的价值。美国托管的旗舰模型,上下文上限大多在200K到400K之间。MiMo V2.5 Pro可以处理完整的文档,这才是它的杀手锏。
  • 公告提到了V2.5 Omni和TTS变体,但没有详细列出具体价格,建议在平台上另行核实。

关于旧版V2-Pro的定价参考,可以查阅我们的MiMo V2-Pro & Omni 定价与 API 使用指南

除了价格,MiMo V2.5还升级了什么

5月27日的公告本质上是一次定价调整,但V2.5本身相比4月发布的V2-Pro确实是一次重大升级。有三个变化值得关注:

  • 更长的实际可用上下文。 V2.5 Pro保留了1M-token的理论窗口,但小米重点改进了200K到800K区间的检索质量——大多数长上下文模型在这个区间性能会明显下降。在800K tokens范围内,大海捞针(Needle-in-haystack)准确率保持在95%以上。
  • 更好的tool-call格式合规性。 V2-Pro处理流式响应中的并行tool calls时,存在返回格式错误JSON的已知问题。V2.5虽然没完全根除这个问题,但故障率大幅降低。无论如何,还是建议自己做JSON schema验证。
  • 更新的训练数据。 V2.5使用了截至2026年第一季度的数据进行训练,知识截止日期比V2-Pro领先大约三个月。

这些改进可能不是那种能上头条的基准测试数据,但它们在真实的生产部署中会实打实地体现出来。把更低的价格和更长、更可靠的上下文窗口结合起来,你会发现一个5月27日之前根本不存在的选项——适合严肃长文档工作的API。

MiMo V2.5 vs 竞品:怎么选?

有意思的对比不是V2.5和它自己旧版本的对比,而是和2026年5月在售的其他旗舰级API选项的对比:

模型Input ($/MTok)Output ($/MTok)Context
Xiaomi MiMo V2.5 Pro$1.00$3.001M
DeepSeek V4-Pro$0.435$0.87128K
GPT-5.5$5.00$30.00200K
Claude Opus 4.7$3.00$15.00200K
Gemini 3.5 Flash~$1.50~$9.001M

三个关键结论:

  • 按单token算,DeepSeek V4-Pro仍然比MiMo V2.5便宜。 Input便宜约2.3倍,output便宜约3.5倍。如果你只看原始token成本,DeepSeek占优。
  • 但在1M上下文工作负载中,MiMo V2.5胜出。 表格里另一个1M上下文选项只有Gemini 3.5 Flash,但它的input贵1.5倍,output贵3倍。
  • MiMo V2.5的input比GPT-5.5便宜5倍,output便宜10倍。 而根据Artificial Analysis的数据,两者基准测试性能相当。

关于DeepSeek的对比,可以看DeepSeek V4-Pro 75%降价现已转为永久。这两篇文章放在一起看会更有意思——都覆盖了本周中国实验室对旗舰级模型的永久性降价。

三个实际场景,三张新账单

用新的永久费率算三个具体案例:

1. 企业级PDF的长文档RAG。 每天50,000次查询,每次800K-token上下文,1K-token回答。用旧的MiMo V2.5长上下文层级(估计有效费率$50/M):每月约$60,000。新的统一费率:每月约$1,225。节省了$58,775/月。

2. 代码审查Agent。 每天5,000个pull requests,30K-token代码库上下文,2K-token评论输出。用旧的GPT-5.5:每月约$5,250。用新的MiMo V2.5:约$510。节省了$4,740/月。

3. 客户支持聊天机器人。 每天200,000轮对话,4K-token system prompt,300-token响应。用旧的Claude Opus 4.7:每月约$11,250。用新的MiMo V2.5:约$805。节省了$10,445/月。

第一个场景就是MiMo V2.5真正发力的地方。这次降价之前,长上下文任务在任何旗舰API上都贵得离谱。现在不一样了。以前必须送到摘要器和分块流水线的文档,现在可以直接整体扔给模型,再也不用做token预算的“体操”优化了。

关于缓存命中(Cache Hits)

$0.20/M的缓存输入费率比$1.00的缓存未命中费率便宜5倍。虽然比不上DeepSeek 120:1的缓存折扣,但对于任何复用稳定system prompt的Agent来说,这个节省依然可观。

举个例子。假设你的助手用一个6,000-token的system prompt,每天处理80,000轮对话,平均用户消息250 input tokens,平均响应600 output tokens:

  • 无缓存命中:80,000轮 × 6,250 input × $1.00 / 1,000,000 = 仅input每天就$500。
  • system-prompt前缀有60%缓存命中:80,000 × (250 × $1.00 + 6,000 × (0.6 × $0.20 + 0.4 × $1.00)) / 1,000,000 = 每天约$271。降幅46%。

虽然比不上DeepSeek缓存带来的88%降幅,但一个input成本$500/天的负载,减半也是实打实的真金白银。技巧和其他提供商一样:固定system prompt,稳定排序检索到的上下文,不要在回复前缀里注入每请求的时间戳。

什么时候选MiMo V2.5,什么时候不选

新的定价让MiMo V2.5成了两类工作负载的首选,但对另一类来说则是较差的选项。

推荐场景:

  • 长文档RAG、代码库Agent、全库重构。 任何自然适合>200K-token context的任务。统一价格加上1M窗口,在廉价层级里是无敌的。
  • 高吞吐量文档处理。 价格可预测,缓存费率($0.20/M)让你能廉价地批量处理相同前缀。

回避场景:

  • 对延迟敏感的交互式聊天。 MiMo V2.5 Pro不是首个token响应最快的模型。对于预输入、自动补全或亚秒级聊天,DeepSeek V4-Flash或Gemini 3.5 Flash在相似成本下延迟表现更好。

注意事项:

  • 数据驻留。 调用通过小米在中国的服务器路由。和DeepSeek一样的采购考量。
  • 可靠性。 小米的第一方API运营历史比美国托管的旗舰模型短。对于有SLA保障的生产环境,建议通过OpenRouter或其他聚合器路由。
  • 函数调用对齐。 在schema层面兼容OpenAI,但在流式工具参数和并行工具调用方面存在边缘情况。上线前务必测试。

关于V2.5之前的V2-Pro发布背景,可以看小米刚刚发布了自己的AI模型,且在OpenRouter上免费。关于免费层级的入门,小米MiMo Orbit免费100T token计划涵盖了资格和注册细节。

2026年LLM价格战的格局

MiMo V2.5是本周内第二家中国实验室进行的永久性旗舰级降价。DeepSeek在5月22日把V4-Pro永久降到了原价的四分之一。Kimi K2在Q1早些时候也降了价。OpenAI O3在2月份降价80%。模式很清楚:

  • 中国实验室在价格上竞争。 这些降价不是促销噱头,是结构性的。
  • 美国实验室在能力和捆绑上竞争。 OpenAI和Anthropic维持旗舰层级的价格,同时发布新功能(思考模式、MCP servers、Agent工作流)来证明溢价的合理性。
  • 基准测试差距已经足够小,大多数工作负载都值得重新测试。根据Artificial Analysis的数据,在大多数编码和推理任务中,MiMo V2.5与GPT-5.5的差距仅在个位数百分点内。

更多信息:

你的构建策略应该怎么调

MiMo V2.5的降价不是营销手段。这是对1M上下文层级的结构性重新定价,而且是永久性的。如果你之前因为成本原因推迟了长文档RAG、全库代码Agent或任何需要>200K-token context的工作负载,你上个季度估算的预算可能比这个季度的实际需求高出了一个数量级。

三个具体的行动步骤:

  • 按token消耗量提取你排名前三的工作负载,用新的统一费率重新算一遍成本。那些跑长上下文的工作负载,结果会让你惊喜。
  • 针对V2.5 Pro和你当前的模型,用同样的prompts做100个样本的评估。大多数团队会发现,质量区间对于70%到85%的流量是可以接受的。
  • 搭建一个Apifox回归测试套件。这样下一次价格下调(肯定还有)的时候,评估工作只需要几小时,而不是几周。

价格底线又一次挪动了。请据此构建你的应用。

来源:https://apifox.com/apiskills/xiaomi-mimo-v2-5-pricing-2026/
上一篇文生3D模型HY-3D任务类型及积分消耗说明 下一篇海外代购小程序技术选型:PHP与Go对比分析
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。