单个token的价格一直在下降,但许多AI产品的账单却丝毫没有减轻。
一家专注于AI情感陪伴的出海公司就遇到了这个难题。它的困境并非无人使用,而是用户增长越快,亏损反而越多。语音交互、多模态生成、持续在线的陪伴关系,使得每一次模型调用都变成了一笔精细的账目——模型需要运行、数据需要传输、结果还要跨越国境送达海外用户手中。后来,这家公司更换了一套推理基础设施,将整体AI与IT成本削减了大约六成,项目才从亏损转为盈利。
带着这笔成本账,我们找到了Akamai亚太区云计算架构师总监李文涛。这些年他经手了大量出海团队的算力架构。在他看来,出海AI团队近两年正在经历一个明显的转变:三年前,大多数团队还处于试水阶段,主要是用AI为主营产品增添一些增值功能,在自己的模型上进行调优打磨,服务根本没有上量。到了今年,重心已经从打磨模型转向了将正式服务推向市场、把钱投入到推理上。越来越多的团队跑通了产品,下一步就是快速铺向全球、尽快实现盈利。
在他接触的出海团队中,AI的应用场景也越来越广泛——从早期的营销、广告和游戏素材的文生图,扩展到文生视频,再到情感陪伴、智能客服、会议转写、实时翻译,以及电商个性化、库存预测、用户行为分析等。其中面向消费者的实时交互类应用,比如情感陪伴和对话,对成本和延迟尤其敏感。
接下来的问题就非常具体了:一个手里已经有了模型、可能正在使用H100或消费级显卡的团队,到底该如何把这笔账算清楚?我们和李文涛聊了三件事——选哪张显卡,怎么核算成本,以及把推理放在哪里运行。
当年出海团队选择CDN,是在为网页、视频和下载体验计算成本;现在选择推理运行在哪里,是在为每一次回答、每一帧视频、每一段语音计算成本。区别仅在于,这一次账单来得更快,也更难藏在后台。
以下为对话实录,经过编辑且不改变原意。
选卡:H100并非万能答案
很多团队默认,跑推理就必须上H100,真的是这样吗?
不一定。英伟达的数据中心卡分为多个档次——从中高端的H100,到中端的RTX PRO 6000 Blackwell,再到更老更小的型号,每张卡擅长的工作各不相同。英伟达对这些卡有明确的定位:有些更适合训练,有些更适合推理。训练需要多卡互联和内存带宽,推理则更看重单卡能否装下模型、能否顶住并发。因此,对于许多推理场景来说,H100其实是杀鸡用牛刀。
根据英伟达自己的产品线资料,RTX PRO 6000在推理这一档被标注为“最高性价比”。它最关键的一点是原生支持FP4精度,而H100这一代(Hopper架构)还做不到,只能支持到FP8。FP4比FP8节省一半显存,对很多模型来说精度损失很小,节省下来的显存可以用来承载更多并发。再加上96GB的大显存,量化后单卡就能装下一个70B到140B的模型——这才是它在运行大模型推理时真正占优势的地方。
能举个例子吗?同样是AI,不同场景该如何搭配不同的卡?
一个韩国客户就是现成的例子——开发《跑跑姜饼人》系列的DevSisters。它在全球运营实时在线游戏,有两个AI场景,使用了完全不同的两张卡。一个是游戏中NPC的实时对话,背后是70B的大模型,对实时性要求高,运行在RTX PRO 6000上。在int8精度下,96GB显存可以装下这个模型,还留出20多GB给用户上下文和并发,基本能把这张卡跑满。另一个是离线生成游戏素材的文生图,模型小得多,采用上一代的RTX 4000 Ada就足够了,更早之前他们使用的是A10、L20这类更老的卡。一张高端卡跑实时大模型,一张小卡跑离线生成——这就是根据模型和场景把资金花在刀刃上。
那为了节省成本,直接上消费级游戏卡,或者显存小一些的便宜卡,行不行?
国内确实有不少客户使用较低端甚至消费级的卡来跑推理,比如5090这种PC游戏卡。但这里有几个问题。首先是算力:创业初期用它跑通产品没问题,可用户量一上来、模型一迭代,很快就会撞到显存容量和带宽的瓶颈。其次是可靠性:消费级卡在这块设计有局限,比如没有ECC显存纠错机制,KV缓存里一旦出错,就可能导致服务中断。还有扩展性:它不支持NVLink,连卡间GPUDirect P2P直通都不支持,一旦需要多卡协作,性能会大幅下降。所以从算力到可靠性再到扩展性,消费级卡都不是长久之计。
另外,有些团队使用显存48GB甚至更小的卡,比RTX PRO 6000小一半左右。运行小模型没问题,但要跑一个70B模型,单卡装不下就得拆成两张——卡与卡之间的通信复杂度和开销一上来,反而不划算。
聊回RTX PRO 6000,你们自己测试过,说它的推理吞吐能做到H100的1.63倍。这个数字是怎么测的?又是什么样的团队其实不该选它?
那个测试使用了业界开源的Llama 70B模型,按照英伟达推荐的标准方法进行。从吞吐来看,RTX PRO 6000能达到H100的1.63倍。而且这还只是吞吐的比较,从性价比角度衡量,优势会显著高于这个数字。补充一点:我们在RTX PRO 6000上跑的时候使用了FP4精度,相比常用的FP8、int8,它在精度几乎不损失的情况下又把显存需求降低了一半;H100这一代还不支持FP4,只能使用FP8。即便如此,我们的吞吐还是做到了它的1.63倍。
至于什么样的团队不该选它——如果是要训练参数量在数百亿甚至更大的模型,需要HBM3那种高显存带宽、支持NVLink的卡,那么H100、甚至B300这类更高端的卡会更合适。RTX PRO 6000的强项是推理,而且它的适用场景很广——从推理、后训练调优到数据分析、科学计算、实时渲染都行,是英伟达数据中心卡里用途最广的一款。选卡说到底,还是看它是否匹配自己的模型和业务。最强的那张,往往不是最划算的。
(注:1.63倍是RTX PRO 6000用FP4、H100用FP8比出来的,差距很大一部分来自精度本身,并非同精度下的硬件差距。第三方测试机构CloudRift做过一组同模型、同量化、同框架的对比,结论是两张卡的推理吞吐基本持平,RTX PRO 6000每百万token的成本低约三成。换句话说,拉到同一精度两者接近,能用上FP4,才是RTX PRO 6000真正拉开差距的地方。)
算账:除了GPU租金,还有哪些容易被忽略的成本?
选完卡,接下来是算账。推理的成本,除了GPU每小时多少钱,还有哪些容易被忽略的?
除了GPU的租金,推理时其实还有不少周边成本容易被忽略——比如CPU、存储和网络流量。以GCP为例,同一台GPU机器里的CPU和存储是分开计费的。只看GPU单价各家差不多,可把CPU、本地存储、网络都算进去,差距就拉开了。Akamai是把GPU、CPU、存储、网络打包销售的。据我们自己的测算,同样一台机器的性价比比GCP的同类机型高出一倍多。
最容易被低估的是出站流量,也就是egress。训练是一次性投入,推理却是持续运行的。做语音、图片、视频这类多模态生成,一次请求传出去可能就是几十兆到几百兆。Akamai的出站流量按大约0.005美元每GB计算,只有大厂常见价格的二十分之一左右——大厂动辄要0.08到0.10美元。这跟我们多年做CDN的底子有关:长期与运营商互联,把缓存服务器放入运营商网络,带宽和跨网结算的成本结构本来就和一般云厂商不同。
另外,AI应用现在很多是多云架构,需要和其他云上的应用互访。Akamai利用做CDN起家的全球骨干网,把自己所有的云区域都打通了,还与几乎所有主流云直连,客户跨云互访无需额外支付带宽费。随着AI Agent越来越多地调用外部工具和云上服务,多云之间的频繁互访会把网络成本和延迟重新放大——这种打通届时会进一步提升性价比,应用部署也更加灵活。
价格上,Akamai在市场里大概是什么位置?
大厂的GPU定价普遍偏高,条款也比较苛刻,往往要求客户承诺较大的使用量,才放出一点折扣。纯卖裸GPU的算力云确实便宜,但很多是规模不大的初创公司,算力的全球分布并不完整,服务质量和可靠性还有待验证。Akamai想要兼顾的是性价比与企业级的全球网络及服务。
对出海团队来说,还有很重要的一层是本地化服务。很多问题不是出在国内总部,而是出在目标市场——当地有没有技术团队、能不能提供7×24小时的架构咨询和故障响应,会直接影响生产服务能否长期稳定地运行下去。Akamai在中国做了十几年,一直服务中国企业出海,在国内和目标市场都有技术团队和资源,客户也能方便地使用我们全球的技术支持。除了性价比,这是客户很看重的地方。
能不能讲一个真实的案例?从选卡、部署到成本,账是怎么一步步算下来的?
我们有一个做情感陪伴的亚太客户。它原来使用大厂的A100——比较老的旗舰训练卡——做多模态的语音交互。A100的租金本来就高,再叠加比我们高20多倍的出站流量,每生成一百万token的综合成本接近4.5到5美元。后来我们帮它优化架构,换到Akamai推理云、使用RTX PRO 6000、精度上采用FP4,出站流量也降到几乎可以忽略,综合成本降到1.8美元,整体AI与IT开销削减了六成,项目从亏损转向盈利。这也是不少出海团队走的路径:起步图省事用大厂,跑到一定规模、单位成本压不下去时,再靠开源自建加合理选卡迁出来。迁移这件事,我们配备了专门的架构师和商务方面的支持。
除了选卡和选云,模型这边还有压缩成本的空间吗?
空间不小。我们推荐FP4量化——它比FP8对显存的需求小一半,精度损耗几乎可以忽略,节省下来的显存可以多承载并发、放更大的上下文。再加上把KV缓存从显存挪到内存,单卡能服务的量就上去了。我们有个做AI消费体验的海外客户,依靠这些办法,把单张图片的生成成本压到了一美分左右。模型侧和基础设施侧的优化是叠加的,两边都做,单位成本才能真正压下来。
位置:延迟、网络路径与边缘部署
延迟对出海的AI产品有多重要?位置对它的影响又有多大?
延迟对出海产品确实比较重要,毕竟中国出海的很多是to C、实时交互类的产品。对一个大模型来说,首个token如果超过两秒,用户就会觉得AI卡住了,可能会流失——这跟以前网页加载太慢、用户放弃率高是同样的道理。对话类大概是两秒这个量级,实时语音、在线客服会更加苛刻——几百毫秒用户就能感觉到延迟大了。前面提到的DevSisters,实时多人在线的游戏互动,也是需要优化延迟的场景。这些都还是to C的场景,再往后像自动驾驶、机器人这种需要在物理世界里实时反应的,对延迟和可靠性的要求只会更高。这里面其实是两件事:一是离用户近不近,二是网络路径好不好——后面这点常被忽略。
从区域数量看,三大云全球大概有30到50个区域,我们的核心云区域在全球有32个;在网络边缘我们部署了4400个节点,覆盖了130个国家——这个数量级上比三大云多了上百倍。节点离用户越近,中间的网络跳就越少。不过这些节点不是每个都能跑大模型,它为推理提供周边服务,比如函数即服务、容器服务、边缘AI网关等。
网络路径这方面我们做过一个对比——帮助一个卡牌游戏客户,它之前使用亚马逊的华盛顿区域服务南美的西语用户,换到我们的华盛顿区域之后,到南美的延迟缩短了大约15%。两边都在华盛顿,物理距离没变,变的是流量进入和穿越互联网的路径。
除了选区域,还有别的办法降低延迟和成本吗?
有,有时候还能跳出纯GPU的范围。我们有个客户做全球的家庭安防摄像头,本来打算全部用GPU跑机器视觉,后来发现这个工作流可以拆成两步:先把视频里有异常的帧抽出来,再把这些帧交给GPU去识别。抽帧这一步我们用一个叫VPU的视频处理芯片来做,把它从GPU上卸载下来,与GPU配合,成本降低了三到五成。把一个推理流程拆开、每段放在最合适的硬件上,能节省不少成本。
当然,不是所有推理都适合下沉到边缘。大模型训练、超大模型的多卡推理,仍然更适合集中在少数高算力的集群里。边缘真正擅长的,是那些对响应速度、跨区域体验和流量成本以及数据合规更敏感的推理服务。
展望:面向Agent时代的算力准备
往前看6到12个月,一个准备出海的AI团队,在算力这件事上最该提前准备什么?
这取决于业务形态,但要说通用的建议:现在AI的模型和技术迭代都非常快,越来越多企业在转向Agent式的架构,所以设计云架构时别只盯着当前的需求,要往更长远看,搭建一个能适应Agent时代的平台。具体有三点:一是多云友好——前面说的跨云打通,就是在为这个做准备。二是技术栈的选择——是用大厂的私有技术栈,像Bedrock、Vertex AI这种,还是用开源加基础设施服务,搭建一个没有技术锁定、容易迁移的技术栈,这个选择很重要。三是Agent时代会带来新的扩展性和安全需求——人与模型的交互如果是一个量级,Agent与Agent之间的交互可能是数百、数千甚至上万个量级。平台的扩展性、可管理性和安全,都要充分考虑。
最后一个问题:对想出海的AI团队,最该补的能力是什么?
最该补的是规模化的运营能力。具体来说,是海外的安全合规、面向全球用户的扩展性,以及产品体验在不同市场的适配。技术上中国团队并不缺乏,更需要专注的是:把一个能跑通的产品,做成一套能在全球稳定、高扩展、安全和低成本运转的系统。
尤其是合规和安全这方面,分量越来越重。应用一旦做到欧洲,就要面对GDPR;做到美国,又有CCPA这类严格的数据合规要求。再加上AI应用本身正在成为新的攻击面。Akamai本身是从CDN起家、转向网络安全、再转向云的,防DDoS、全球合规这些能力是直接内嵌在这套推理云基础设施里的。对出海团队来说,算力和安全合规,可以在一个地方一起解决。

