出海AI团队每百万Token推理成本降六成重算成本账

时间：2026-06-11 13:11

出海AI团队通过更换推理基础设施实现成本优化。一家情感陪伴公司将模型部署至Akamai推理云，采用RTXPRO6000显卡和FP4精度，每百万token综合成本降至1 8美元，整体AI与IT开销削减约六成，项目从亏损转向盈利。选卡需匹配场景，出站流量等隐藏成本常被低估，边缘部署可降低延迟。

单个token的价格一直在下降，但许多AI产品的账单却丝毫没有减轻。

一家专注于AI情感陪伴的出海公司就遇到了这个难题。它的困境并非无人使用，而是用户增长越快，亏损反而越多。语音交互、多模态生成、持续在线的陪伴关系，使得每一次模型调用都变成了一笔精细的账目——模型需要运行、数据需要传输、结果还要跨越国境送达海外用户手中。后来，这家公司更换了一套推理基础设施，将整体AI与IT成本削减了大约六成，项目才从亏损转为盈利。

带着这笔成本账，我们找到了Akamai亚太区云计算架构师总监李文涛。这些年他经手了大量出海团队的算力架构。在他看来，出海AI团队近两年正在经历一个明显的转变：三年前，大多数团队还处于试水阶段，主要是用AI为主营产品增添一些增值功能，在自己的模型上进行调优打磨，服务根本没有上量。到了今年，重心已经从打磨模型转向了将正式服务推向市场、把钱投入到推理上。越来越多的团队跑通了产品，下一步就是快速铺向全球、尽快实现盈利。

在他接触的出海团队中，AI的应用场景也越来越广泛——从早期的营销、广告和游戏素材的文生图，扩展到文生视频，再到情感陪伴、智能客服、会议转写、实时翻译，以及电商个性化、库存预测、用户行为分析等。其中面向消费者的实时交互类应用，比如情感陪伴和对话，对成本和延迟尤其敏感。

接下来的问题就非常具体了：一个手里已经有了模型、可能正在使用H100或消费级显卡的团队，到底该如何把这笔账算清楚？我们和李文涛聊了三件事——选哪张显卡，怎么核算成本，以及把推理放在哪里运行。

当年出海团队选择CDN，是在为网页、视频和下载体验计算成本；现在选择推理运行在哪里，是在为每一次回答、每一帧视频、每一段语音计算成本。区别仅在于，这一次账单来得更快，也更难藏在后台。

以下为对话实录，经过编辑且不改变原意。

选卡：H100并非万能答案

很多团队默认，跑推理就必须上H100，真的是这样吗？

不一定。英伟达的数据中心卡分为多个档次——从中高端的H100，到中端的RTX PRO 6000 Blackwell，再到更老更小的型号，每张卡擅长的工作各不相同。英伟达对这些卡有明确的定位：有些更适合训练，有些更适合推理。训练需要多卡互联和内存带宽，推理则更看重单卡能否装下模型、能否顶住并发。因此，对于许多推理场景来说，H100其实是杀鸡用牛刀。

根据英伟达自己的产品线资料，RTX PRO 6000在推理这一档被标注为“最高性价比”。它最关键的一点是原生支持FP4精度，而H100这一代（Hopper架构）还做不到，只能支持到FP8。FP4比FP8节省一半显存，对很多模型来说精度损失很小，节省下来的显存可以用来承载更多并发。再加上96GB的大显存，量化后单卡就能装下一个70B到140B的模型——这才是它在运行大模型推理时真正占优势的地方。

能举个例子吗？同样是AI，不同场景该如何搭配不同的卡？

一个韩国客户就是现成的例子——开发《跑跑姜饼人》系列的DevSisters。它在全球运营实时在线游戏，有两个AI场景，使用了完全不同的两张卡。一个是游戏中NPC的实时对话，背后是70B的大模型，对实时性要求高，运行在RTX PRO 6000上。在int8精度下，96GB显存可以装下这个模型，还留出20多GB给用户上下文和并发，基本能把这张卡跑满。另一个是离线生成游戏素材的文生图，模型小得多，采用上一代的RTX 4000 Ada就足够了，更早之前他们使用的是A10、L20这类更老的卡。一张高端卡跑实时大模型，一张小卡跑离线生成——这就是根据模型和场景把资金花在刀刃上。

那为了节省成本，直接上消费级游戏卡，或者显存小一些的便宜卡，行不行？

国内确实有不少客户使用较低端甚至消费级的卡来跑推理，比如5090这种PC游戏卡。但这里有几个问题。首先是算力：创业初期用它跑通产品没问题，可用户量一上来、模型一迭代，很快就会撞到显存容量和带宽的瓶颈。其次是可靠性：消费级卡在这块设计有局限，比如没有ECC显存纠错机制，KV缓存里一旦出错，就可能导致服务中断。还有扩展性：它不支持NVLink，连卡间GPUDirect P2P直通都不支持，一旦需要多卡协作，性能会大幅下降。所以从算力到可靠性再到扩展性，消费级卡都不是长久之计。

另外，有些团队使用显存48GB甚至更小的卡，比RTX PRO 6000小一半左右。运行小模型没问题，但要跑一个70B模型，单卡装不下就得拆成两张——卡与卡之间的通信复杂度和开销一上来，反而不划算。

聊回RTX PRO 6000，你们自己测试过，说它的推理吞吐能做到H100的1.63倍。这个数字是怎么测的？又是什么样的团队其实不该选它？

那个测试使用了业界开源的Llama 70B模型，按照英伟达推荐的标准方法进行。从吞吐来看，RTX PRO 6000能达到H100的1.63倍。而且这还只是吞吐的比较，从性价比角度衡量，优势会显著高于这个数字。补充一点：我们在RTX PRO 6000上跑的时候使用了FP4精度，相比常用的FP8、int8，它在精度几乎不损失的情况下又把显存需求降低了一半；H100这一代还不支持FP4，只能使用FP8。即便如此，我们的吞吐还是做到了它的1.63倍。

至于什么样的团队不该选它——如果是要训练参数量在数百亿甚至更大的模型，需要HBM3那种高显存带宽、支持NVLink的卡，那么H100、甚至B300这类更高端的卡会更合适。RTX PRO 6000的强项是推理，而且它的适用场景很广——从推理、后训练调优到数据分析、科学计算、实时渲染都行，是英伟达数据中心卡里用途最广的一款。选卡说到底，还是看它是否匹配自己的模型和业务。最强的那张，往往不是最划算的。

（注：1.63倍是RTX PRO 6000用FP4、H100用FP8比出来的，差距很大一部分来自精度本身，并非同精度下的硬件差距。第三方测试机构CloudRift做过一组同模型、同量化、同框架的对比，结论是两张卡的推理吞吐基本持平，RTX PRO 6000每百万token的成本低约三成。换句话说，拉到同一精度两者接近，能用上FP4，才是RTX PRO 6000真正拉开差距的地方。）

算账：除了GPU租金，还有哪些容易被忽略的成本？

选完卡，接下来是算账。推理的成本，除了GPU每小时多少钱，还有哪些容易被忽略的？

除了GPU的租金，推理时其实还有不少周边成本容易被忽略——比如CPU、存储和网络流量。以GCP为例，同一台GPU机器里的CPU和存储是分开计费的。只看GPU单价各家差不多，可把CPU、本地存储、网络都算进去，差距就拉开了。Akamai是把GPU、CPU、存储、网络打包销售的。据我们自己的测算，同样一台机器的性价比比GCP的同类机型高出一倍多。

最容易被低估的是出站流量，也就是egress。训练是一次性投入，推理却是持续运行的。做语音、图片、视频这类多模态生成，一次请求传出去可能就是几十兆到几百兆。Akamai的出站流量按大约0.005美元每GB计算，只有大厂常见价格的二十分之一左右——大厂动辄要0.08到0.10美元。这跟我们多年做CDN的底子有关：长期与运营商互联，把缓存服务器放入运营商网络，带宽和跨网结算的成本结构本来就和一般云厂商不同。

另外，AI应用现在很多是多云架构，需要和其他云上的应用互访。Akamai利用做CDN起家的全球骨干网，把自己所有的云区域都打通了，还与几乎所有主流云直连，客户跨云互访无需额外支付带宽费。随着AI Agent越来越多地调用外部工具和云上服务，多云之间的频繁互访会把网络成本和延迟重新放大——这种打通届时会进一步提升性价比，应用部署也更加灵活。

价格上，Akamai在市场里大概是什么位置？

大厂的GPU定价普遍偏高，条款也比较苛刻，往往要求客户承诺较大的使用量，才放出一点折扣。纯卖裸GPU的算力云确实便宜，但很多是规模不大的初创公司，算力的全球分布并不完整，服务质量和可靠性还有待验证。Akamai想要兼顾的是性价比与企业级的全球网络及服务。

对出海团队来说，还有很重要的一层是本地化服务。很多问题不是出在国内总部，而是出在目标市场——当地有没有技术团队、能不能提供7×24小时的架构咨询和故障响应，会直接影响生产服务能否长期稳定地运行下去。Akamai在中国做了十几年，一直服务中国企业出海，在国内和目标市场都有技术团队和资源，客户也能方便地使用我们全球的技术支持。除了性价比，这是客户很看重的地方。

能不能讲一个真实的案例？从选卡、部署到成本，账是怎么一步步算下来的？

我们有一个做情感陪伴的亚太客户。它原来使用大厂的A100——比较老的旗舰训练卡——做多模态的语音交互。A100的租金本来就高，再叠加比我们高20多倍的出站流量，每生成一百万token的综合成本接近4.5到5美元。后来我们帮它优化架构，换到Akamai推理云、使用RTX PRO 6000、精度上采用FP4，出站流量也降到几乎可以忽略，综合成本降到1.8美元，整体AI与IT开销削减了六成，项目从亏损转向盈利。这也是不少出海团队走的路径：起步图省事用大厂，跑到一定规模、单位成本压不下去时，再靠开源自建加合理选卡迁出来。迁移这件事，我们配备了专门的架构师和商务方面的支持。

除了选卡和选云，模型这边还有压缩成本的空间吗？

空间不小。我们推荐FP4量化——它比FP8对显存的需求小一半，精度损耗几乎可以忽略，节省下来的显存可以多承载并发、放更大的上下文。再加上把KV缓存从显存挪到内存，单卡能服务的量就上去了。我们有个做AI消费体验的海外客户，依靠这些办法，把单张图片的生成成本压到了一美分左右。模型侧和基础设施侧的优化是叠加的，两边都做，单位成本才能真正压下来。

位置：延迟、网络路径与边缘部署

延迟对出海的AI产品有多重要？位置对它的影响又有多大？

延迟对出海产品确实比较重要，毕竟中国出海的很多是to C、实时交互类的产品。对一个大模型来说，首个token如果超过两秒，用户就会觉得AI卡住了，可能会流失——这跟以前网页加载太慢、用户放弃率高是同样的道理。对话类大概是两秒这个量级，实时语音、在线客服会更加苛刻——几百毫秒用户就能感觉到延迟大了。前面提到的DevSisters，实时多人在线的游戏互动，也是需要优化延迟的场景。这些都还是to C的场景，再往后像自动驾驶、机器人这种需要在物理世界里实时反应的，对延迟和可靠性的要求只会更高。这里面其实是两件事：一是离用户近不近，二是网络路径好不好——后面这点常被忽略。

从区域数量看，三大云全球大概有30到50个区域，我们的核心云区域在全球有32个；在网络边缘我们部署了4400个节点，覆盖了130个国家——这个数量级上比三大云多了上百倍。节点离用户越近，中间的网络跳就越少。不过这些节点不是每个都能跑大模型，它为推理提供周边服务，比如函数即服务、容器服务、边缘AI网关等。

网络路径这方面我们做过一个对比——帮助一个卡牌游戏客户，它之前使用亚马逊的华盛顿区域服务南美的西语用户，换到我们的华盛顿区域之后，到南美的延迟缩短了大约15%。两边都在华盛顿，物理距离没变，变的是流量进入和穿越互联网的路径。

除了选区域，还有别的办法降低延迟和成本吗？

有，有时候还能跳出纯GPU的范围。我们有个客户做全球的家庭安防摄像头，本来打算全部用GPU跑机器视觉，后来发现这个工作流可以拆成两步：先把视频里有异常的帧抽出来，再把这些帧交给GPU去识别。抽帧这一步我们用一个叫VPU的视频处理芯片来做，把它从GPU上卸载下来，与GPU配合，成本降低了三到五成。把一个推理流程拆开、每段放在最合适的硬件上，能节省不少成本。

当然，不是所有推理都适合下沉到边缘。大模型训练、超大模型的多卡推理，仍然更适合集中在少数高算力的集群里。边缘真正擅长的，是那些对响应速度、跨区域体验和流量成本以及数据合规更敏感的推理服务。

展望：面向Agent时代的算力准备

往前看6到12个月，一个准备出海的AI团队，在算力这件事上最该提前准备什么？

这取决于业务形态，但要说通用的建议：现在AI的模型和技术迭代都非常快，越来越多企业在转向Agent式的架构，所以设计云架构时别只盯着当前的需求，要往更长远看，搭建一个能适应Agent时代的平台。具体有三点：一是多云友好——前面说的跨云打通，就是在为这个做准备。二是技术栈的选择——是用大厂的私有技术栈，像Bedrock、Vertex AI这种，还是用开源加基础设施服务，搭建一个没有技术锁定、容易迁移的技术栈，这个选择很重要。三是Agent时代会带来新的扩展性和安全需求——人与模型的交互如果是一个量级，Agent与Agent之间的交互可能是数百、数千甚至上万个量级。平台的扩展性、可管理性和安全，都要充分考虑。

最后一个问题：对想出海的AI团队，最该补的能力是什么？

最该补的是规模化的运营能力。具体来说，是海外的安全合规、面向全球用户的扩展性，以及产品体验在不同市场的适配。技术上中国团队并不缺乏，更需要专注的是：把一个能跑通的产品，做成一套能在全球稳定、高扩展、安全和低成本运转的系统。

尤其是合规和安全这方面，分量越来越重。应用一旦做到欧洲，就要面对GDPR；做到美国，又有CCPA这类严格的数据合规要求。再加上AI应用本身正在成为新的攻击面。Akamai本身是从CDN起家、转向网络安全、再转向云的，防DDoS、全球合规这些能力是直接内嵌在这套推理云基础设施里的。对出海团队来说，算力和安全合规，可以在一个地方一起解决。