一个显著的行业趋势正在显现:越来越多的美国科技企业,正在将中国开源AI模型部署到其生产基础设施中。
背后的深层原因并不复杂——顶级美国模型的API调用成本持续上涨,迫使企业在按需付费的灵活性、模型性能与压缩AI账单的成本压力之间,找到最佳平衡点。中国开源模型恰好在这一成本与性能的交叉点上,提供了极具吸引力的替代方案。
最典型的案例来自美国加密货币交易平台Coinbase。其CEO Brian Armstrong近日在社交平台X上分享,公司已通过内部LLM网关,将智谱GLM 5.2和月之暗面Kimi K2.7设定为全体工程师的默认大模型。

尽管Armstrong未透露具体节省金额,但他指出,在Token使用量保持指数级增长的同时,通过更换默认模型、实施智能路由策略以及强化缓存机制,Coinbase的AI相关支出已压缩近一半。他强调,这套成本优化方案任何企业均可复制。关键在于,公司91%的工程师此前从未触及用量上限,因此此次优化并非削减员工配额,而是将代码审查、文档摘要等常规任务的默认模型,从Anthropic、OpenAI的顶尖模型,切换为两款中国开源权重模型。
下面具体了解这两款模型的核心实力。
GLM 5.2是智谱AI于6月12日发布,并随后以MIT协议开放权重的旗舰模型。在业界公认的第三方基准测试平台Artificial Analysis上,它取得了当前开源权重模型中的最高分,稳居全球第一梯队。更具体地说,GLM 5.2在SWE-bench Pro这类高难度工程评测中,性能甚至超越了OpenAI的GPT-5.5;而在FrontierSWE等更具挑战性的任务里,也已逼近Anthropic的旗舰模型Opus 4.8。能够在一系列高强度工程任务中与闭源前沿模型正面竞争,而调用价格仅为Opus 4.8的几分之一——这才是其核心吸引力所在。
月之暗面的Kimi大模型同样在海外市场不断巩固其地位。今年3月,美国AI编程工具Cursor(近期被马斯克以600亿美元收购)被曝其自研模型Composer 2“借鉴”了Kimi K2.5的架构。该公司的年度经常性收入(ARR)从3月的约1亿美元快速攀升至4月的2亿美元以上,海外API收入自去年11月以来增长了约四倍。资本市场迅速反应,月之暗面的估值在半年内从43亿美元飙升至200亿美元。Coinbase此次默认调用的Kimi K2.7 Code,正是Kimi于6月12日发布的最新代码模型。
Coinbase的案例绝非孤例。在美国企业AI开支普遍面临失控的背景下,转向中国开源模型已成为一条明确的降本增效路径。去年,Airbnb已将其客服模型从GPT替换为千问(Qwen);近期,美国AI公司Lindy更是将模型从Anthropic Claude迁移至DeepSeek V4,而在此之前,其AI支出已超过员工工资总额。Snowflake的CEO曾算过一笔账,认为GLM 5.2完全能够以显著更低的价格,实现与Claude相当的性能表现。
数据同样印证了这一趋势。美中经济与安全审查委员会今年3月的一份报告估计,约80%的美国AI初创公司正在使用中国开源模型。在OpenRouter平台上,中国模型的Token市场份额已从一年前的不足2%,猛增至今年4月的40%以上。阿里巴巴千问(Qwen)系列的累计下载量在今年1月已突破7亿,在Hugging Face上的累计下载量已超越Meta的Llama,成为全球下载量最高的开源模型家族之一。
在OpenRouter的调用排行榜上,来自中国的DeepSeek、小米MiMo、MiniMax、腾讯混元、智谱GLM等模型,长期稳定占据第一梯队位置。

值得特别关注的是,这一切发生在中美围绕AI领域持续摩擦的大背景下。智谱AI早在2025年1月就被美国商务部以“助力中国军事现代化”为由列入实体清单,成为首家上榜的中国大模型公司;月之暗面则于今年2月被Anthropic公开点名,被指与DeepSeek、MiniMax一同通过虚假账号“蒸馏”Claude。今年6月,Anthropic又指控阿里巴巴的Qwen团队实施了规模更大的蒸馏行为。针对数据安全与国家安全等合规问题,Coinbase的解释是:已将开源权重下载至自有服务器进行自托管运行,代码和查询请求不会流向位于中国的API接口。
企业将工程负载默认切换至中国开源模型这一趋势,正对西方前沿厂商的定价策略形成直接压力。Anthropic已于6月1日向美国证监会秘密递交IPO招股书,其接近万亿的市场估值核心,依赖于企业付费金额的快速增长。而如果企业大规模地将日常负载迁移至更便宜的中国开源模型,外界很可能将此视为其增长故事中需要面对的核心风险。
高盛预测,全球Token消耗量到2030年可能将增长至目前的24倍。在OpenAI、Anthropic等美国闭源厂商定价持续高企的情况下,如果单Token成本无法下降,企业的账单压力只会进一步加剧。更何况,GPT 5.6与Claude Fable 5的封禁风波,使得模型的可获得性本身也成了企业必须审慎评估的风险因素。当性能已进入第一梯队的国产模型,与更低的价格同时呈现在企业面前时,摆在它们面前的选择就不再是意识形态问题,而是越来越具体且紧迫的成本控制、性能需求与部署控制权问题。一旦价格差距拉开,所谓的技术忠诚度,就会变得相当脆弱了。
