大模型调用计费全解析:TokenHub 在线推理与批量任务成本指南
TokenHub 将大模型调用计费划分为两套独立的体系:在线推理与批量任务。前者服务于实时交互场景,后者专为离线大规模数据处理设计。如果你对成本敏感,本文将帮助你清晰核算账单,掌握大模型成本优化策略。

首先明确一个核心观点:将所有大模型调用统一纳入“按 Token 计费”模式,操作上看似简单,但不同业务对响应速度、并发上限及单位成本的需求差异巨大。例如,用户问答、客服对话、IDE 实时代码补全等场景,必须实现毫秒级响应,并对 RPM(每分钟请求数)有严格把控;而报告批量生成、数据集标注、夜间数据结构化抽取等任务,可容忍一定延迟,但要求成本越低越好。
腾讯云 TokenHub 正是基于这一逻辑进行计费区分。对于同一模型,在线推理与批量任务在价格、限流策略和调用入口上均采用独立规则。理解这一差异,是精准控制模型调用成本、将预算用在关键处的必要前提。
接下来看官方提供的整体计费框架。TokenHub 采用“模型类型×使用场景”的计费维度:语言模型的推理输入、输出及缓存输入分别独立计价;图像生成按张计费;视频生成与 3D 生成均按积分扣除。此外,还有预付费的 Token Plan 包月产品。下文将重点聚焦语言模型在在线推理与批量任务两大场景下的详细计费规则。
先说在线推理。这是专为实时业务打造的方案,典型场景涵盖 C 端对话、客服机器人、IDE 代码补全、文档实时润色生成以及智能体在线推理。在线推理服务可灵活管理模型的使用方式,包括计费与限流规则。同一模型可创建多个在线推理服务以区分不同业务,且各服务的计费相互独立。根据官方文档,一些代表性价格如下:Hy3 preview(0–16k)推理输入为 1.2 元/百万 tokens,输出为 4 元,缓存命中仅需 0.4 元;DeepSeek-V4-Flash 输入 1 元,输出 2 元,缓存命中 0.2 元;GLM-5(0–32k)输入 4 元,输出 18 元,缓存命中 1 元。表格中还包含 Kimi-K2.6、MiniMax-M2.7 等一系列模型的价格,极具参考价值。
在线推理的相关规则同样值得注意:结算周期为日结;同一模型可创建多个在线推理服务,分别配置不同限流,且计费独立;每个模型设有预置限流,具体规则可在模型详情页查阅;视觉类模型若生成失败则不收费;欠费将影响服务调用。若任务对延迟要求不高但数据量巨大,批量任务场景则是更优选择。典型应用包括海量文档结构化抽取、数据集预处理、内容质检批量评分及夜间报告批量生成。需特别留意的是,Token Plan 仅限在 AI 工具中交互式使用,禁止用于自动化脚本或非交互式批量调用——大批量处理必须走在线推理或批量任务通道。
批量任务的定价同样清晰。以 GLM-5(0–32k)区间为例,推理输入为 2 元/百万 tokens,输出为 9 元,缓存命中 0.5 元。GLM-5.1 略贵,输入 3 元,输出 12 元,缓存命中 0.65 元。直观对比在线推理与批量任务的差异:相同的 GLM-5(0–32k),在线推理输入 4 元,输出 18 元,缓存命中 1 元;而批量任务输入仅需 2 元,输出 9 元,缓存命中 0.5 元。简而言之,将适合夜间批量处理的任务切换至批量任务通道,单位成本可近乎减半。若再叠加 Cache 缓存命中,缓存价通常仅为常规输入价的四分之一到十分之一,整体节省效果更为显著。
如何从四个维度判断两种场景的选择?时延要求:若用户需实时等待回复,应选用在线推理;若用户无需即时响应,例如异步生成或定时任务,则应选择批量任务。任务量级:高频小请求、QPS 持续的场景适合在线推理配合缓存优化;单次消耗数十万甚至上亿 Token 量级的任务,则应选择批量任务。限流容忍度:若业务对并发上限有严格要求,建议使用在线推理配合多服务隔离;若可接受排队执行,批量任务即可满足需求。成本敏感度:对单位价格不敏感、以用户体验优先的场景,选在线推理;对单位价格高度敏感的内容生产管线,则采用批量任务加缓存优化方案。
在降低成本方面,有几点常用策略值得关注。首先,善用缓存功能。DeepSeek-V4-Pro/Flash、Hy3 preview、GLM-5/5.1、Kimi-K2.5/2.6、MiniMax-M2.5/2.7 等模型均支持 Prompt Cache。在请求中携带 prompt_cache_key(建议使用业务侧 conversation_id)及 X-Session-ID Header,可显著提升缓存命中率,同时降低 TTFT(首 Token 生成时间)与单次成本。其次,保持 System Prompt 的稳定性,避免在其中写入“今天是某年某月某日”这类动态内容,应将时间相关信息置于 user message 中。messages 中每条消息的 role、数量及顺序也应保持稳定,新轮次仅追加在末尾。此外,部分模型按输入长度阶梯计价,例如 GLM-5 在 0–32k 与 32k 以上两档价格不同。合理拆分或精简超长输入,不仅能降低 TTFT,还可避免进入更高单价档位。最后,合理搭配按量计费与订阅方案。测试期可先领取新人 100 万免费 Tokens 验证业务可行性;个人开发阶段可考虑 Token Plan 个人版,活动单价 39 元/月起,相比按量计费可节省一半至八成成本;团队或企业阶段则评估 Token Plan 企业版,月预算 1000 至 20000 元可定制,积分池统一管理,支持多 Key 分发。
在控制台查询账单同样操作简便。打开 TokenHub 控制台的“用量统计”页面,可按模型、服务或 API Key 维度查看用量;在腾讯云费用中心可查看账单明细及对账信息。针对多业务、多团队场景,建议为不同业务创建独立的 API Key 和服务,便于按业务线拆分账单,实现精细化的模型调用成本管理。
一些常见疑问也值得提前了解。在线推理的多个服务计费是否相互独立?是的,同一模型创建的多个在线推理服务,其计费的开启、关闭及方式均相互独立,便于按业务线分账。批量任务与在线推理能否同时使用?完全可以。常见做法是将实时交互流量放在线推理,夜间数据处理流量走批量任务,两条线互不干扰。Token Plan 套餐能否用于批量任务?不能,它仅限在 AI 工具中交互式使用。模型生成失败会扣费吗?视觉类模型生成失败不计费,语言模型按实际产生的 Token 计费。批量任务的并发数如何计算?具体限流以模型详情页规则及控制台为准,重度场景可联系销售或提交工单调整。
总而言之,大模型调用计费规则并非上线后才需考虑的问题,它直接影响模型选型、Prompt 编写、缓存策略及产品架构等各个环节。合理组合在线推理、批量任务与 Token Plan,在相同业务量下,成本可能相差数倍。掌握这些计费要点,将助你实现更高效的大模型成本控制。
