游乐游手机版
首页/科技数码/文章详情

ROI利剑悬顶,AI员工面临效益大考

时间:2026-07-01 11:07
先说说现在AI行业一个普遍现象:几乎所有公司都在按“使用量”来收费。不管是按token消耗算,还是按额度制走,本质上都是“用多少,付多少”。 这套模式放在模型API上当然没问题,但放到那些越来越深入企业工作流的Agent身上,就有点水土不服了。你想想,一个Agent为了完成一个任务,需要反复读取上下

先说说现在AI行业一个普遍现象:几乎所有公司都在按“使用量”来收费。不管是按token消耗算,还是按额度制走,本质上都是“用多少,付多少”。

这套模式放在模型API上当然没问题,但放到那些越来越深入企业工作流的Agent身上,就有点水土不服了。你想想,一个Agent为了完成一个任务,需要反复读取上下文、提炼信息、调用各种工具,token消耗量很容易就失控了。

更夸张的是,一些企业内部已经开始出现所谓的“token maxxing”现象——员工和Agent不断堆积AI使用量,但没人能说清楚这些token最终创造了多少实际价值。

结果是,企业AI的投入成本越堆越高,但生产力回报却越来越模糊。Gartner甚至预测,到2028年,AI编程工具的成本可能会超过开发者本人的薪资。这个趋势如果再不扭转,老板们迟早要炸锅。

就在所有人还在纠结“怎么省token”的时候,AI编程Agent公司Cognition给出了一个完全不同的思路。

他们没有继续宣传Devin消耗了多少token,而是换了一种算法:把Devin完成的工作折合成“等效工程师小时”,再换算成具体的美元价值。不止如此,他们还推出了一项叫做Productivity Guarantee的政策——如果Devin创造的工程价值低于客户实际支付的费用,公司将返还最高1000万美元额度的使用credits。

相比“AI到底能不能干活”这种技术层面的问题,Cognition这次直接回答了一个更能戳中老板痛点的问题:

这个AI员工,到底值不值这个价。

01 token消耗只是成本,不是价值

单从产品形态上看,Cognition的主力产品Devin还算是一个标准的AI编程Agent:写代码、修Bug、提交PR,这些能力并不算多让人意外。真正让它在市场上脱颖而出的,是Cognition没有把Devin当成一个简单的开发者工具来卖,而是把它包装成一套可以用ROI来衡量的生产力方案。

在Da vid Senra 6月28日的最新访谈里,Cognition的CEO Scott Wu专门花了一个章节来讲这个话题——“Measuring ROI Instead Of Token Spend”(用ROI代替token消耗来衡量AI的价值)。他提到,很多企业开始统计员工用了多少AI、消耗了多少token,甚至把token用量当作内部考核指标。但这么做,很容易跑偏。

因为token消耗说到底只是成本,不是价值。

企业真正关心的问题根本不是谁用了更多AI,而是这些AI到底完成了多少工作。

Scott Wu举了一个很直观的例子:

假设一个原本需要1500万美元、18个月才能完成的项目,最后依靠Devin和内部团队的配合,只花了100万美元、3个月就搞定了。对CEO和CFO来说,这笔投资划不划算?当然划算。他们根本不关心这个项目用掉了多少token,甚至不在乎你用的是哪家的AI。只要你能帮我解决问题、完成任务,这笔钱就是值得的。

用更少的钱、更短的时间,拿到同样甚至更好的结果——这笔账,老板们算得很清楚。

为了落实这套逻辑,Cognition会派团队直接进驻客户现场,帮他们找适合Devin的使用场景,做用户培训,搭建工作流程,写playbook,配合安全审查和私有云部署。换句话说,Devin被打包成了一整套企业生产力改造方案,而不是那种“开箱即用”的工具。

这种打法,与其说像一家SaaS公司,不如说更像一家咨询公司或IT外包公司。企业采购咨询服务,最终买单的是项目成果;而采购AI Agent,也正在越来越接近这种逻辑。

在这套逻辑之下,Cognition想证明的不仅仅是Devin的代码能力,更重要的是——它值不值得走进企业预算。

02 AI员工的价值,是怎么被计算出来的

当然,ROI不能只是一句口号。如果Devin要真正向企业证明自己“值这个价”,Cognition必须回答一个更具体的问题:一个AI工程师完成的工作,到底怎么换算成美元价值?

Cognition专门写了一篇文章来解释这套方法论。他们承认,直接计算AI带来的商业价值确实很难——一个PR到底能带来多少收入?一个Bug修复到底避免了多少损失?这些很难被精确归因。所以他们没有一上来就计算最终商业收益,而是选择了一个中间指标:“有效工程师小时”。

首先,他们收集了126位企业开发者、258个真实Devin Session的数据。每位开发者都需要回答一个问题:如果没有Devin,这项工作你自己需要花多久?

这些真实的反馈数据,被用来训练和校准整套评估系统。之后,每一次Devin完成任务,这套系统都会重新评估它到底创造了多少价值。整个过程大致可以分为三步:

第一步,先过滤掉无效工作。

不是每一次Devin Session都算生产力。如果Devin生成了一堆代码,但最后没有被采用、没有推进项目、也没有真正解决问题(比如PR没有被合并),那么这些token消耗就不会被计入价值。对于没有PR的任务,系统还会用分类器判断这个Session是否真的推进了工作,比如查找未使用依赖、扫描安全漏洞、审查PR、跑数据查询、排查Bug等——这些工作不一定产生代码,但仍然可能是有效工程工作。相反,如果Devin因为没有权限无法继续,或者向用户追问后没人回复,这类Session就会被过滤掉。

第二步,估算人类工程师完成同样任务需要多少时间。

评估系统会读取整个Session的全貌——包括用户需求、Devin执行过程、代码、PR、日志以及代码库上下文,然后估算一名普通工程师完成同样结果需要投入多少时间。这套系统甚至考虑到了很多细节:如果用户已经告诉了Devin具体怎么改,那只计算写代码的时间;如果Bug需要自己定位,那定位时间也要算进去;如果这是一个陌生的遗留代码库,人类需要先花时间熟悉,而Devin已经完成了这部分工作,这些时间同样会计入价值。

第三步,再把工程师时间换算成美元。

Cognition采用统一的工程师成本标准,把“等效工程师小时”转换成美元价值,再与企业实际支付的费用进行比较。如果创造的价值高于成本,企业获得正ROI;如果低于成本,Cognition就通过Productivity Guarantee返还credits(最高价值1000万美元)。

当然,Cognition并没有宣称这套算法能够精确计算每一个任务的真实价值。他们在技术文档里承认,单个任务的估算可能存在2到3倍误差。但他们认为,随着企业部署规模扩大、任务数量增加,整体平均结果会越来越稳定,更接近AI创造的真实生产力。

这套机制真正值得关注的,并不是它能把每一行代码都精确折算成多少钱。重点在于,它把AI Agent的价值衡量标准,从“消耗了多少token”转向了“替企业节省了多少工程时间”。

因为那些大体量的客户并不会只因为一个AI产品看起来很酷,就去大规模部署。它们要过预算、合规、安全、采购和财务审核,必须有人解释清楚:为什么这笔钱值得花?

过去,ROI往往是客户内部采购部门、业务部门或财务部门需要自己计算的事。软件公司只负责卖工具,至于工具有没有真正提升效率、节省成本,更多要靠客户自己去证明。买了、用了、效果不好,通常也是客户自己消化。

但Cognition把这件事揽了过来,在销售阶段就主动帮客户把这笔账算清楚,还用Productivity Guarantee把一部分风险接了过去。这套打法也确实成了Cognition扩张故事的一部分:Cognition在融资时披露,企业用量今年以来增长超过10倍,run-rate revenue已经达到4.92亿美元;同时,它把Citi、Goldman Sachs、Santander、Mercedes-Benz、Dell、美国陆军和海军等大客户放在了最显眼的位置。

Cognition这套逻辑带来的最大价值在于,它让Devin从一个工程师手里的AI编程工具,变成了CFO能看懂、采购部门能推进、CEO能批准的预算项。毕竟,不是所有老板都会写代码,但所有老板都会算账。

03 AI越像员工,就越要看结果

如果把视角从AI编程Agent放大到整个企业Agent领域,你会发现一个有意思的现象:按结果衡量价值这件事,客服Agent其实已经领先了一步。

比如Intercom。它原本就是做客户服务软件的,Fin是它推出的AI客服Agent,按一次成功结果收费,最新价格是每个结果0.99美元。Zendesk也是类似的逻辑,作为老牌客服软件公司,它的AI Agent面向客服工单场景,收费单位是“自动解决”:只有AI独立解决了一次客户问题,才会被计入收费。

Sierra则从一开始就把自己定位成“按业务结果收费”的企业Agent公司,服务客服、销售、续费、退订挽回等场景,客户为AI完成了多少次有效业务结果付费。原因很简单:客服场景的结果最容易定义。用户问题有没有被解决、工单有没有关闭、客户有没有被成功转化——这些结果比“一个PR到底创造了多少商业价值”更容易衡量。

传统的企业服务本来就看重结果,ROI叙事本身就是企业软件、咨询服务和IT外包行业里非常常见的商业逻辑。可以说,客服Agent率先把这套逻辑搬到了AI领域,而Devin又把这套逻辑延伸到了更复杂的软件工程场景。

不过,AI行业里并不是所有产品都适合用ROI直接计费。底层模型API就像水电煤一样,模型公司提供的是算力和模型调用能力,客户调用一次模型,就会产生真实的推理成本。所以OpenAI、Anthropic、Google这类模型公司,仍然很难完全摆脱token、调用量或credits计费。Copilot类产品则更像传统软件,GitHub Copilot、Microsoft 365 Copilot、ChatGPT Business这类产品,主要卖的是一个固定入口和一套使用权限,所以更适合按人头、按月订阅。

但Agent产品不一样。我们之前在讨论Claude Tag的时候就提过,“AI同事”并不等于免费牛马。企业Agent越像一个真正的同事,token消耗就越不可能像普通聊天那样可控。当这个AI同事足够聪明、足够勤快、足够愿意加班的时候,企业反而需要限制它的使用。AI同事也要有预算;而一旦有预算,老板就会继续往下追问:这笔预算到底带来了多少回报?

换句话说,如果AI只是一个工具,企业可以按使用量、按席位、按额度来付费;但如果AI被包装成一个员工,老板自然也会用考核员工的方式来考核它。

ROI叙事未必代表AI计费方式的终点,也不意味着所有企业Agent都会立刻转向按成果收费。但Cognition确实在软件工程这个更难量化的场景里,重新建立了一套ROI计算方法,展示了Agent商业化的一条清晰路径。

毕竟,当“AI员工”正式上岗,老板迟早会问一句:

这个AI员工,到底值不值这个价?

来源:https://www.163.com/dy/article/L0M172Q005399DAP.html
上一篇武汉光谷三年投入超10亿元打造智能体之城 下一篇国内首个开源鸿蒙机器人系统社区启动,破局国产软件生态
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
美股存储股与港股芯片股盘前齐涨阿里美团反弹
科技数码 · 2026-07-01

美股存储股与港股芯片股盘前齐涨阿里美团反弹

6月29日美股盘前,市场情绪明显回暖。道琼斯指数期货涨了0 45%,纳斯达克100指数期货更猛,涨了1 09%,标普500指数期货也有0 76%的涨幅。从数据来看,这个开市势头相当不错。 半导体和存储概念股成了盘前的领头羊。西部数据、迈威尔科技涨幅超过2%,希捷科技、英特尔、美光科技、闪迪、安森美半

AYANEO Pocket MICRO 2《绝区零》实机演示 骁龙865定制芯片
科技数码 · 2026-07-01

AYANEO Pocket MICRO 2《绝区零》实机演示 骁龙865定制芯片

上周6月26日晚间,AYANEO正式发布了Pocket MICRO 2这款迷你复古掌机,首发起售价直接定为1599元。对于想在掌上畅玩复古游戏以及部分新作的玩家来说,这个价位颇具吸引力。 具体来看配置与价格梯度: 6GB+128GB 玄夜黑、霜原白配色:零售价1799元,首发价1599元 8GB+2

微软确认Windows 11文件资源管理器提速无需预加载机制
科技数码 · 2026-07-01

微软确认Windows 11文件资源管理器提速无需预加载机制

微软官方刚刚确认,Windows 11 系统的文件资源管理器即将迎来性能上的显著提升。更值得关注的是,此次更新无需加入 Insider 预览计划,普通用户也能直接体验到这一速度优化。 据海外媒体报道,新版文件资源管理器已包含在 2026 年 6 月的可选更新中。微软的优化重点十分明确:提升文件资源管

大疆140W氮化镓充电器2C1A轻松充笔记本图赏
科技数码 · 2026-07-01

大疆140W氮化镓充电器2C1A轻松充笔记本图赏

2024年6月29日,大疆正式发布了旗下首款充电器产品——DJI Power 140W氮化镓充电器。这款充电器集大功率输出、多口协同、生态适配与便携设计于一身,为用户提供了一站式高效补电方案。我们第一时间上手拍摄了一组精美图赏,带您先睹为快。 充电器内部采用先进的氮化镓芯片,额定总输出功率高达140

雷神MIXⅡ迷你主机R7-8745HS 16G 512G售3999元
科技数码 · 2026-07-01

雷神MIXⅡ迷你主机R7-8745HS 16G 512G售3999元

雷神近期为旗下MIX II迷你主机推出了全新配置版本:搭载锐龙R7-8745HS处理器,配备16GB内存与512GB固态硬盘,官方售价3999元。在这一价位上,与同类竞品相比,性价比虽不算突出,但考虑到一体式金属机身和仅0 68L的紧凑体积,非常适合桌面空间有限、追求精致外观的用户。 先看外观设计: