全球顶尖法律AI月处理12万亿token为什么不用OpenAI云？_AI热点日报

全球顶尖法律AI公司Harvey每月处理12万亿token，却自建云Agent基础设施而非采用大厂托管平台。原因有三：避免模型锁定以实现多模型灵活切换；自控运行时满足零数据留存安全承诺；任务路由与开源模型使成本降低3-5倍。

你可能会好奇，像OpenAI、Anthropic、Google这样的科技巨头，明明都拥有成熟的Agent托管平台，Harvey作为全球领先的法律AI公司，为何执意要从零开始自建一套云Agent基础设施？要知道，直接采用现成方案，接入速度快、节省人力成本、上线更简单，怎么看都是更明智的选择。

但Harvey的联合创始人兼总裁Gabe Pereyra，在6月1日一篇极为罕见的深度技术文章中，给出了三个极其硬核的理由。这篇文章不仅阐述了Harvey自身的技术抉择，更揭示了一个所有认真投身企业AI Agent的公司迟早都会撞上的结构性难题。

Harvey的客户是谁？全球最顶级的律师事务所和企业法务团队。在法律圈，它几乎已成为那个“无需讨论用不用，只需讨论怎么接入”的存在——就像律师界的Salesforce。它的量级有多大？今年5月，它处理了12万亿tokens，从1月的1万亿起步，五个月内翻了12倍。在这个体量下，任何技术决策的代价都会被急剧放大。

那么，Harvey究竟撞上了哪堵墙？

从“聊天”到“Agent”，运行时的复杂度是数量级的跃升

全球顶尖法律AI每月处理12万亿token，为什么不用OpenAI的云？

两年前的Harvey，本质上只是一个聊天界面：律师提问，AI回答，每次交互彼此独立，干干净净。

现在呢？一次Agent运行，背后可能是数百次模型调用，再加上工具调用、文件读写、中间状态保存、断点续跑……整个链路复杂得像一条生产线。举个例子，一个跨多份合同的条款比对任务，或者在大批量案例中寻找先例，可能耗时几分钟，甚至几小时。期间需要暂停、恢复，还要能随时回溯到任意一个检查点。

单次对话没有这个问题。但Agent有。

所以，“调一个API就够了”的心智模型，在这里完全失效。你需要的是一个完整的运行时——它要管理跨步骤的状态、协调多个模型的调用顺序、处理工具执行过程中可能出现的异常、确保数据安全边界。这，才是Gabe那篇文章真正想探讨的核心。

现成的托管平台，为什么用不了？三个结构性的原因

最省事的路径，就是直接使用OpenAI的Agents API，或者Anthropic的托管方案，甚至Google Vertex AI。模型、运行时、工具调用框架全包了，接入几天就能跑起来，完全不用自己搭建基础设施。

Harvey的工程团队当然认真评估过。但评估之后，他们发现了三个问题。不是那种“等供应商更新一下就能解决”的小毛病，而是结构性的、根本性的不兼容。

全球顶尖法律AI每月处理12万亿token，为什么不用OpenAI的云？

原因一：模型锁定，与多模型灵活性的根本冲突

法律AI，容错率极低。一份合同条款分析如果漏掉了关键风险点，可能直接意味着几千万美元的合规敞口。因此，Harvey对每个新模型都保持高度关注——谁家有了新进展，立即评测，发现有更优选项，立刻切换。这种紧张程度，在外人看来可能有些神经质，但在这个行业，完全正确。

然而，托管平台的商业逻辑，天然不支持这种做法。用OpenAI的Agents API，你只能用OpenAI的模型；用Anthropic的平台，只能用Claude；用Google Vertex AI，只能跑Gemini。这不是批评，这是商业上完全正当的逻辑——模型提供商当然有内在动机把自己的平台绑定在自家模型上。

但Harvey的需求是：今天用Claude Sonnet 4.6，明天如果发现Gemini在某类文件分析任务上更精准，就切到Gemini；后天DeepSeek v4 Pro在成本上具有碾压优势，就让DeepSeek去处理那类任务。模型选择，应该是一个路由决策，而不是一种基础设施锁定。

只有自建运行时，才能在不改动Agent逻辑的前提下，自由切换底层模型。使用大厂平台，这扇门从一开始就关上了。

原因二：ZDR（零数据留存）——一个有状态的Agent与安全承诺的架构矛盾

ZDR，全称Zero Data Retention，零数据留存。这是Harvey向顶尖律所和企业法务客户做出的核心安全承诺：你发给我们的任何数据，不会被写入磁盘，不会被保留，会话结束即彻底消失。没有备份，没有日志，更不存在“存放在第三方某台服务器上”这种说法。

在法律行业，这几乎是必选项。律所和企业法务处理的，都是未公开的并购信息、专利诉讼策略、高管薪酬结构。这类数据，一旦留在任何一个不属于客户自己的系统里，合规部门和客户都过不了这一关。

听起来，ZDR似乎只是一个合规配置，打个勾就行？

Gabe说，完全不是。ZDR和有状态的Agent运行，在架构上是根本矛盾的——除非你完全掌控自己的运行时。

全球顶尖法律AI每月处理12万亿token，为什么不用OpenAI的云？

有状态的Agent运行，意味着中间状态需要被持久化。一个复杂法律任务执行到一半，机器突然重启，或者律师希望第二天继续，你需要能从某个检查点恢复——这要求把工作记忆、中间文件、工具结果、检查点写入磁盘，静静等待下次调用。这正是OpenAI、Anthropic等托管平台的运作方式：状态写盘，运行完毕后需要手动调用delete()来清除。

全球顶尖法律AI每月处理12万亿token，为什么不用OpenAI的云？

但ZDR，要求数据“永远不落盘”。不是“加密存储”，不是“用完手动删”，而是物理上从未写入任何地方。客户的合同草案、内部会议纪要、诉讼证据策略——在任何不属于客户自己的服务器上存在，哪怕只是短暂停留，都是合规风险。

Harvey的解决方案就是：自己控制运行时，把Agent运行过程中产生的所有状态都保留在内存里。会话结束，内存自动释放，状态就像从未存在过。没有第三方云上的持久化磁盘，没有需要主动清除的东西，因为压根没有写过。

这个能力，只有完全控制运行时才能实现。使用大厂托管平台，状态写在他们的磁盘上，你无法改变这一事实。ZDR和托管平台，在架构上就是互斥的。

原因三：3-5倍的成本差距，在月处理12万亿token的量级下，是致命的

全球顶尖法律AI每月处理12万亿token，为什么不用OpenAI的云？

这张图是全文最直白的数字。Harvey 5月份处理了12万亿token，从1月的1万亿增长到现在，五个月翻了12倍。在这个量级下，成本问题极其严峻。

Gabe说，自建基础设施之后，成本下降了3到5倍。怎么做到的？两个杠杆：

根据任务类型挑选最合适的模型——合同摘要和高风险条款审查，对质量的要求完全不同，可以把轻量任务路由给成本更低的选项。
可以采用开源模型，完全避开商业API的溢价。

「我们现在使用的开源模型，在LAB基准测试上的得分，已经能和一年前的前沿闭源模型持平，而成本仅相当于当时的一小部分。」

对于月处理12万亿token的公司来说，3-5倍的成本差距，是一个非常现实的数字。

模型差距在缩小，开源正成为不可忽视的力量

全球顶尖法律AI每月处理12万亿token，为什么不用OpenAI的云？

LAB，是Harvey自己构建的法律Agent基准测试。它不测通用的MMLU，而是专门评估模型在真实法律任务上的表现：合同分析、案例检索、条款比对。

榜单第一名是Claude Sonnet 4.6，分数86.9%，闭源。第二名是GLM-5.1，86.2%，开源。差距仅有0.7个百分点。第四名DeepSeek v4 Pro，84.6%，开源。第七名Qwen 3.6-27B，80.9%，开源。

闭源模型仍然保持领先，但榜单上半段，已经是开源和闭源混战的局面。一年前，这张图大概率是清一色的GPT-4、Claude，如今，面目全非。

更重要的是，想要使用这些开源模型，你必须拥有自己的运行环境——你无法在OpenAI的平台上跑DeepSeek v4 Pro。反过来也一样：正因为你拥有了自建运行时，你才能做到“选择最好最便宜的那个模型，不管它属于哪家公司”。自建基础设施和开源模型，是互相成就的。

这三个原因，最终形成了一个互相强化的整体：模型差距在缩小 → 开源变得竞争力十足 → 使用开源需要自建运行时 → 自建运行时又赋予了你多模型灵活性和ZDR。

抽象层：一个技术上的优雅答案

Harvey的技术答案，是一个抽象层（Abstraction Layer）。从上文架构图可以看出，它位于Agent和所有模型提供商、所有云之间，把harness（执行框架）、sandbox（沙盒）、behavior（行为规范）、routing（路由策略）全部标准化。

好处在于：无论底层是换模型还是换云，上层的Agent代码都不需要改动。今天在Azure上跑Claude Sonnet，明天切到AWS上跑DeepSeek v4 Pro，Agent本身完全感知不到。换模型，从一次“重大迁移”变成了一行配置改动。

代价也显而易见：这层东西需要自己搭建、自己维护，而且是基础设施，稳定性要求极高。Harvey拥有工程能力和业务规模来支撑这个决定，大部分公司未必具备。

值得注意的是，Gabe在文章里的语气，并非“所有人都应该这么做”，而是非常克制地表示“对我们来说，这三个原因足够充分”。他花了相当篇幅解释为什么这不是每家公司的正确选择——对于量级不够大、数据敏感度没那么高的场景，使用托管平台反而是更理性的决策。

Harvey的选择，给我们什么启示？

Harvey自建，是因为那三条硬约束，他们全都触碰到了，而且每一条都是“必须”，而非“最好有”。法律行业的数据敏感性、顶尖律所的合规要求、每月12万亿token的量级——把这三个放在一起，自建就变成了唯一合理的选择。

但真正值得停下来思考的，是另一件事。

Gabe说，这篇文章“本该早两年就写”——言下之意，他们这个决定，是在正式构建Agent基础设施之前就做出的，而不是做了一半发现不对劲再掉头。

这个次序，很关键。如果Harvey两年前先使用了OpenAI的托管平台，今天要满足ZDR、要跑多模型、要降低成本，迁移成本会非常高——不只是技术层面，还有客户承诺、合同条款、安全审计。

基础设施选型的问题，不是“现在够不够用”，而是“三年后如果要换，代价是什么”。

大多数人选型时只问前半句。Harvey的文章，提醒你记得问后半句。

当然，这套架构有多少人应该复制？不好说。Harvey的体量和行业，是极少数的极端组合。大多数公司，可能这辈子都到不了需要做出这个决定的门槛。而且，即使问到了后半句，现实的资源也未必能让你提前做出最优选择。问题是对的，但能否真的按答案行动，是另一回事。

也许，真正值得带走的，只是那个习惯：在挑选一个基础设施之前，花十分钟问问自己——三年后如果要换，那条路，有多长？