ROI利剑悬顶，AI员工面临效益大考

时间：2026-07-01 11:07

先说说现在AI行业一个普遍现象：几乎所有公司都在按“使用量”来收费。不管是按token消耗算，还是按额度制走，本质上都是“用多少，付多少”。这套模式放在模型API上当然没问题，但放到那些越来越深入企业工作流的Agent身上，就有点水土不服了。你想想，一个Agent为了完成一个任务，需要反复读取上下

先说说现在AI行业一个普遍现象：几乎所有公司都在按“使用量”来收费。不管是按token消耗算，还是按额度制走，本质上都是“用多少，付多少”。

这套模式放在模型API上当然没问题，但放到那些越来越深入企业工作流的Agent身上，就有点水土不服了。你想想，一个Agent为了完成一个任务，需要反复读取上下文、提炼信息、调用各种工具，token消耗量很容易就失控了。

更夸张的是，一些企业内部已经开始出现所谓的“token maxxing”现象——员工和Agent不断堆积AI使用量，但没人能说清楚这些token最终创造了多少实际价值。

结果是，企业AI的投入成本越堆越高，但生产力回报却越来越模糊。Gartner甚至预测，到2028年，AI编程工具的成本可能会超过开发者本人的薪资。这个趋势如果再不扭转，老板们迟早要炸锅。

就在所有人还在纠结“怎么省token”的时候，AI编程Agent公司Cognition给出了一个完全不同的思路。

他们没有继续宣传Devin消耗了多少token，而是换了一种算法：把Devin完成的工作折合成“等效工程师小时”，再换算成具体的美元价值。不止如此，他们还推出了一项叫做Productivity Guarantee的政策——如果Devin创造的工程价值低于客户实际支付的费用，公司将返还最高1000万美元额度的使用credits。

相比“AI到底能不能干活”这种技术层面的问题，Cognition这次直接回答了一个更能戳中老板痛点的问题：

这个AI员工，到底值不值这个价。

01 token消耗只是成本，不是价值

单从产品形态上看，Cognition的主力产品Devin还算是一个标准的AI编程Agent：写代码、修Bug、提交PR，这些能力并不算多让人意外。真正让它在市场上脱颖而出的，是Cognition没有把Devin当成一个简单的开发者工具来卖，而是把它包装成一套可以用ROI来衡量的生产力方案。

在Da vid Senra 6月28日的最新访谈里，Cognition的CEO Scott Wu专门花了一个章节来讲这个话题——“Measuring ROI Instead Of Token Spend”（用ROI代替token消耗来衡量AI的价值）。他提到，很多企业开始统计员工用了多少AI、消耗了多少token，甚至把token用量当作内部考核指标。但这么做，很容易跑偏。

因为token消耗说到底只是成本，不是价值。

企业真正关心的问题根本不是谁用了更多AI，而是这些AI到底完成了多少工作。

Scott Wu举了一个很直观的例子：

假设一个原本需要1500万美元、18个月才能完成的项目，最后依靠Devin和内部团队的配合，只花了100万美元、3个月就搞定了。对CEO和CFO来说，这笔投资划不划算？当然划算。他们根本不关心这个项目用掉了多少token，甚至不在乎你用的是哪家的AI。只要你能帮我解决问题、完成任务，这笔钱就是值得的。

用更少的钱、更短的时间，拿到同样甚至更好的结果——这笔账，老板们算得很清楚。

为了落实这套逻辑，Cognition会派团队直接进驻客户现场，帮他们找适合Devin的使用场景，做用户培训，搭建工作流程，写playbook，配合安全审查和私有云部署。换句话说，Devin被打包成了一整套企业生产力改造方案，而不是那种“开箱即用”的工具。

这种打法，与其说像一家SaaS公司，不如说更像一家咨询公司或IT外包公司。企业采购咨询服务，最终买单的是项目成果；而采购AI Agent，也正在越来越接近这种逻辑。

在这套逻辑之下，Cognition想证明的不仅仅是Devin的代码能力，更重要的是——它值不值得走进企业预算。

02 AI员工的价值，是怎么被计算出来的

当然，ROI不能只是一句口号。如果Devin要真正向企业证明自己“值这个价”，Cognition必须回答一个更具体的问题：一个AI工程师完成的工作，到底怎么换算成美元价值？

Cognition专门写了一篇文章来解释这套方法论。他们承认，直接计算AI带来的商业价值确实很难——一个PR到底能带来多少收入？一个Bug修复到底避免了多少损失？这些很难被精确归因。所以他们没有一上来就计算最终商业收益，而是选择了一个中间指标：“有效工程师小时”。

首先，他们收集了126位企业开发者、258个真实Devin Session的数据。每位开发者都需要回答一个问题：如果没有Devin，这项工作你自己需要花多久？

这些真实的反馈数据，被用来训练和校准整套评估系统。之后，每一次Devin完成任务，这套系统都会重新评估它到底创造了多少价值。整个过程大致可以分为三步：

第一步，先过滤掉无效工作。

不是每一次Devin Session都算生产力。如果Devin生成了一堆代码，但最后没有被采用、没有推进项目、也没有真正解决问题（比如PR没有被合并），那么这些token消耗就不会被计入价值。对于没有PR的任务，系统还会用分类器判断这个Session是否真的推进了工作，比如查找未使用依赖、扫描安全漏洞、审查PR、跑数据查询、排查Bug等——这些工作不一定产生代码，但仍然可能是有效工程工作。相反，如果Devin因为没有权限无法继续，或者向用户追问后没人回复，这类Session就会被过滤掉。

第二步，估算人类工程师完成同样任务需要多少时间。

评估系统会读取整个Session的全貌——包括用户需求、Devin执行过程、代码、PR、日志以及代码库上下文，然后估算一名普通工程师完成同样结果需要投入多少时间。这套系统甚至考虑到了很多细节：如果用户已经告诉了Devin具体怎么改，那只计算写代码的时间；如果Bug需要自己定位，那定位时间也要算进去；如果这是一个陌生的遗留代码库，人类需要先花时间熟悉，而Devin已经完成了这部分工作，这些时间同样会计入价值。

第三步，再把工程师时间换算成美元。

Cognition采用统一的工程师成本标准，把“等效工程师小时”转换成美元价值，再与企业实际支付的费用进行比较。如果创造的价值高于成本，企业获得正ROI；如果低于成本，Cognition就通过Productivity Guarantee返还credits（最高价值1000万美元）。

当然，Cognition并没有宣称这套算法能够精确计算每一个任务的真实价值。他们在技术文档里承认，单个任务的估算可能存在2到3倍误差。但他们认为，随着企业部署规模扩大、任务数量增加，整体平均结果会越来越稳定，更接近AI创造的真实生产力。

这套机制真正值得关注的，并不是它能把每一行代码都精确折算成多少钱。重点在于，它把AI Agent的价值衡量标准，从“消耗了多少token”转向了“替企业节省了多少工程时间”。

因为那些大体量的客户并不会只因为一个AI产品看起来很酷，就去大规模部署。它们要过预算、合规、安全、采购和财务审核，必须有人解释清楚：为什么这笔钱值得花？

过去，ROI往往是客户内部采购部门、业务部门或财务部门需要自己计算的事。软件公司只负责卖工具，至于工具有没有真正提升效率、节省成本，更多要靠客户自己去证明。买了、用了、效果不好，通常也是客户自己消化。

但Cognition把这件事揽了过来，在销售阶段就主动帮客户把这笔账算清楚，还用Productivity Guarantee把一部分风险接了过去。这套打法也确实成了Cognition扩张故事的一部分：Cognition在融资时披露，企业用量今年以来增长超过10倍，run-rate revenue已经达到4.92亿美元；同时，它把Citi、Goldman Sachs、Santander、Mercedes-Benz、Dell、美国陆军和海军等大客户放在了最显眼的位置。

Cognition这套逻辑带来的最大价值在于，它让Devin从一个工程师手里的AI编程工具，变成了CFO能看懂、采购部门能推进、CEO能批准的预算项。毕竟，不是所有老板都会写代码，但所有老板都会算账。

03 AI越像员工，就越要看结果

如果把视角从AI编程Agent放大到整个企业Agent领域，你会发现一个有意思的现象：按结果衡量价值这件事，客服Agent其实已经领先了一步。

比如Intercom。它原本就是做客户服务软件的，Fin是它推出的AI客服Agent，按一次成功结果收费，最新价格是每个结果0.99美元。Zendesk也是类似的逻辑，作为老牌客服软件公司，它的AI Agent面向客服工单场景，收费单位是“自动解决”：只有AI独立解决了一次客户问题，才会被计入收费。

Sierra则从一开始就把自己定位成“按业务结果收费”的企业Agent公司，服务客服、销售、续费、退订挽回等场景，客户为AI完成了多少次有效业务结果付费。原因很简单：客服场景的结果最容易定义。用户问题有没有被解决、工单有没有关闭、客户有没有被成功转化——这些结果比“一个PR到底创造了多少商业价值”更容易衡量。

传统的企业服务本来就看重结果，ROI叙事本身就是企业软件、咨询服务和IT外包行业里非常常见的商业逻辑。可以说，客服Agent率先把这套逻辑搬到了AI领域，而Devin又把这套逻辑延伸到了更复杂的软件工程场景。

不过，AI行业里并不是所有产品都适合用ROI直接计费。底层模型API就像水电煤一样，模型公司提供的是算力和模型调用能力，客户调用一次模型，就会产生真实的推理成本。所以OpenAI、Anthropic、Google这类模型公司，仍然很难完全摆脱token、调用量或credits计费。Copilot类产品则更像传统软件，GitHub Copilot、Microsoft 365 Copilot、ChatGPT Business这类产品，主要卖的是一个固定入口和一套使用权限，所以更适合按人头、按月订阅。

但Agent产品不一样。我们之前在讨论Claude Tag的时候就提过，“AI同事”并不等于免费牛马。企业Agent越像一个真正的同事，token消耗就越不可能像普通聊天那样可控。当这个AI同事足够聪明、足够勤快、足够愿意加班的时候，企业反而需要限制它的使用。AI同事也要有预算；而一旦有预算，老板就会继续往下追问：这笔预算到底带来了多少回报？

换句话说，如果AI只是一个工具，企业可以按使用量、按席位、按额度来付费；但如果AI被包装成一个员工，老板自然也会用考核员工的方式来考核它。

ROI叙事未必代表AI计费方式的终点，也不意味着所有企业Agent都会立刻转向按成果收费。但Cognition确实在软件工程这个更难量化的场景里，重新建立了一套ROI计算方法，展示了Agent商业化的一条清晰路径。

毕竟，当“AI员工”正式上岗，老板迟早会问一句：

这个AI员工，到底值不值这个价？

来源：https://www.163.com/dy/article/L0M172Q005399DAP.html

上一篇武汉光谷三年投入超10亿元打造智能体之城 下一篇国内首个开源鸿蒙机器人系统社区启动，破局国产软件生态

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。