你可能会好奇,像OpenAI、Anthropic、Google这样的科技巨头,明明都拥有成熟的Agent托管平台,Harvey作为全球领先的法律AI公司,为何执意要从零开始自建一套云Agent基础设施?要知道,直接采用现成方案,接入速度快、节省人力成本、上线更简单,怎么看都是更明智的选择。
但Harvey的联合创始人兼总裁Gabe Pereyra,在6月1日一篇极为罕见的深度技术文章中,给出了三个极其硬核的理由。这篇文章不仅阐述了Harvey自身的技术抉择,更揭示了一个所有认真投身企业AI Agent的公司迟早都会撞上的结构性难题。
Harvey的客户是谁?全球最顶级的律师事务所和企业法务团队。在法律圈,它几乎已成为那个“无需讨论用不用,只需讨论怎么接入”的存在——就像律师界的Salesforce。它的量级有多大?今年5月,它处理了12万亿tokens,从1月的1万亿起步,五个月内翻了12倍。在这个体量下,任何技术决策的代价都会被急剧放大。
那么,Harvey究竟撞上了哪堵墙?
从“聊天”到“Agent”,运行时的复杂度是数量级的跃升

两年前的Harvey,本质上只是一个聊天界面:律师提问,AI回答,每次交互彼此独立,干干净净。
现在呢?一次Agent运行,背后可能是数百次模型调用,再加上工具调用、文件读写、中间状态保存、断点续跑……整个链路复杂得像一条生产线。举个例子,一个跨多份合同的条款比对任务,或者在大批量案例中寻找先例,可能耗时几分钟,甚至几小时。期间需要暂停、恢复,还要能随时回溯到任意一个检查点。
单次对话没有这个问题。但Agent有。
所以,“调一个API就够了”的心智模型,在这里完全失效。你需要的是一个完整的运行时——它要管理跨步骤的状态、协调多个模型的调用顺序、处理工具执行过程中可能出现的异常、确保数据安全边界。这,才是Gabe那篇文章真正想探讨的核心。
现成的托管平台,为什么用不了?三个结构性的原因
最省事的路径,就是直接使用OpenAI的Agents API,或者Anthropic的托管方案,甚至Google Vertex AI。模型、运行时、工具调用框架全包了,接入几天就能跑起来,完全不用自己搭建基础设施。
Harvey的工程团队当然认真评估过。但评估之后,他们发现了三个问题。不是那种“等供应商更新一下就能解决”的小毛病,而是结构性的、根本性的不兼容。

原因一:模型锁定,与多模型灵活性的根本冲突
法律AI,容错率极低。一份合同条款分析如果漏掉了关键风险点,可能直接意味着几千万美元的合规敞口。因此,Harvey对每个新模型都保持高度关注——谁家有了新进展,立即评测,发现有更优选项,立刻切换。这种紧张程度,在外人看来可能有些神经质,但在这个行业,完全正确。
然而,托管平台的商业逻辑,天然不支持这种做法。用OpenAI的Agents API,你只能用OpenAI的模型;用Anthropic的平台,只能用Claude;用Google Vertex AI,只能跑Gemini。这不是批评,这是商业上完全正当的逻辑——模型提供商当然有内在动机把自己的平台绑定在自家模型上。
但Harvey的需求是:今天用Claude Sonnet 4.6,明天如果发现Gemini在某类文件分析任务上更精准,就切到Gemini;后天DeepSeek v4 Pro在成本上具有碾压优势,就让DeepSeek去处理那类任务。模型选择,应该是一个路由决策,而不是一种基础设施锁定。
只有自建运行时,才能在不改动Agent逻辑的前提下,自由切换底层模型。使用大厂平台,这扇门从一开始就关上了。
原因二:ZDR(零数据留存)——一个有状态的Agent与安全承诺的架构矛盾
ZDR,全称Zero Data Retention,零数据留存。这是Harvey向顶尖律所和企业法务客户做出的核心安全承诺:你发给我们的任何数据,不会被写入磁盘,不会被保留,会话结束即彻底消失。没有备份,没有日志,更不存在“存放在第三方某台服务器上”这种说法。
在法律行业,这几乎是必选项。律所和企业法务处理的,都是未公开的并购信息、专利诉讼策略、高管薪酬结构。这类数据,一旦留在任何一个不属于客户自己的系统里,合规部门和客户都过不了这一关。
听起来,ZDR似乎只是一个合规配置,打个勾就行?
Gabe说,完全不是。ZDR和有状态的Agent运行,在架构上是根本矛盾的——除非你完全掌控自己的运行时。

有状态的Agent运行,意味着中间状态需要被持久化。一个复杂法律任务执行到一半,机器突然重启,或者律师希望第二天继续,你需要能从某个检查点恢复——这要求把工作记忆、中间文件、工具结果、检查点写入磁盘,静静等待下次调用。这正是OpenAI、Anthropic等托管平台的运作方式:状态写盘,运行完毕后需要手动调用delete()来清除。

但ZDR,要求数据“永远不落盘”。不是“加密存储”,不是“用完手动删”,而是物理上从未写入任何地方。客户的合同草案、内部会议纪要、诉讼证据策略——在任何不属于客户自己的服务器上存在,哪怕只是短暂停留,都是合规风险。
Harvey的解决方案就是:自己控制运行时,把Agent运行过程中产生的所有状态都保留在内存里。会话结束,内存自动释放,状态就像从未存在过。没有第三方云上的持久化磁盘,没有需要主动清除的东西,因为压根没有写过。
这个能力,只有完全控制运行时才能实现。使用大厂托管平台,状态写在他们的磁盘上,你无法改变这一事实。ZDR和托管平台,在架构上就是互斥的。
原因三:3-5倍的成本差距,在月处理12万亿token的量级下,是致命的

这张图是全文最直白的数字。Harvey 5月份处理了12万亿token,从1月的1万亿增长到现在,五个月翻了12倍。在这个量级下,成本问题极其严峻。
Gabe说,自建基础设施之后,成本下降了3到5倍。怎么做到的?两个杠杆:
- 根据任务类型挑选最合适的模型——合同摘要和高风险条款审查,对质量的要求完全不同,可以把轻量任务路由给成本更低的选项。
- 可以采用开源模型,完全避开商业API的溢价。
「我们现在使用的开源模型,在LAB基准测试上的得分,已经能和一年前的前沿闭源模型持平,而成本仅相当于当时的一小部分。」
对于月处理12万亿token的公司来说,3-5倍的成本差距,是一个非常现实的数字。
模型差距在缩小,开源正成为不可忽视的力量

LAB,是Harvey自己构建的法律Agent基准测试。它不测通用的MMLU,而是专门评估模型在真实法律任务上的表现:合同分析、案例检索、条款比对。
榜单第一名是Claude Sonnet 4.6,分数86.9%,闭源。第二名是GLM-5.1,86.2%,开源。差距仅有0.7个百分点。第四名DeepSeek v4 Pro,84.6%,开源。第七名Qwen 3.6-27B,80.9%,开源。
闭源模型仍然保持领先,但榜单上半段,已经是开源和闭源混战的局面。一年前,这张图大概率是清一色的GPT-4、Claude,如今,面目全非。
更重要的是,想要使用这些开源模型,你必须拥有自己的运行环境——你无法在OpenAI的平台上跑DeepSeek v4 Pro。反过来也一样:正因为你拥有了自建运行时,你才能做到“选择最好最便宜的那个模型,不管它属于哪家公司”。自建基础设施和开源模型,是互相成就的。
这三个原因,最终形成了一个互相强化的整体:模型差距在缩小 → 开源变得竞争力十足 → 使用开源需要自建运行时 → 自建运行时又赋予了你多模型灵活性和ZDR。
抽象层:一个技术上的优雅答案
Harvey的技术答案,是一个抽象层(Abstraction Layer)。从上文架构图可以看出,它位于Agent和所有模型提供商、所有云之间,把harness(执行框架)、sandbox(沙盒)、behavior(行为规范)、routing(路由策略)全部标准化。
好处在于:无论底层是换模型还是换云,上层的Agent代码都不需要改动。今天在Azure上跑Claude Sonnet,明天切到AWS上跑DeepSeek v4 Pro,Agent本身完全感知不到。换模型,从一次“重大迁移”变成了一行配置改动。
代价也显而易见:这层东西需要自己搭建、自己维护,而且是基础设施,稳定性要求极高。Harvey拥有工程能力和业务规模来支撑这个决定,大部分公司未必具备。
值得注意的是,Gabe在文章里的语气,并非“所有人都应该这么做”,而是非常克制地表示“对我们来说,这三个原因足够充分”。他花了相当篇幅解释为什么这不是每家公司的正确选择——对于量级不够大、数据敏感度没那么高的场景,使用托管平台反而是更理性的决策。
Harvey的选择,给我们什么启示?
Harvey自建,是因为那三条硬约束,他们全都触碰到了,而且每一条都是“必须”,而非“最好有”。法律行业的数据敏感性、顶尖律所的合规要求、每月12万亿token的量级——把这三个放在一起,自建就变成了唯一合理的选择。
但真正值得停下来思考的,是另一件事。
Gabe说,这篇文章“本该早两年就写”——言下之意,他们这个决定,是在正式构建Agent基础设施之前就做出的,而不是做了一半发现不对劲再掉头。
这个次序,很关键。如果Harvey两年前先使用了OpenAI的托管平台,今天要满足ZDR、要跑多模型、要降低成本,迁移成本会非常高——不只是技术层面,还有客户承诺、合同条款、安全审计。
基础设施选型的问题,不是“现在够不够用”,而是“三年后如果要换,代价是什么”。
大多数人选型时只问前半句。Harvey的文章,提醒你记得问后半句。
当然,这套架构有多少人应该复制?不好说。Harvey的体量和行业,是极少数的极端组合。大多数公司,可能这辈子都到不了需要做出这个决定的门槛。而且,即使问到了后半句,现实的资源也未必能让你提前做出最优选择。问题是对的,但能否真的按答案行动,是另一回事。
也许,真正值得带走的,只是那个习惯:在挑选一个基础设施之前,花十分钟问问自己——三年后如果要换,那条路,有多长?
