很长一段时间里,关于AI能否替代人类管理者的讨论始终没有停过。最近一项来自普林斯顿大学的实验,给出了相当直观的答案。
6月底,普林斯顿大学发布了一个名为CEO-Bench的基准测试,核心玩法很简单:让AI模型模拟一家创业公司的首席执行官,在虚拟环境中经营500天,启动资金是100万美元(约合680.4万元软妹币)。结果呢?绝大多数模型都亏得底朝天,直接破产。

这个测试可不是闹着玩的。它专门考察AI在长期、多变量环境下的管理能力。500天的模拟周期里,模型需要持续处理定价策略、预算分配、竞争分析、战略制定等一系列环环相扣的商业决策。这背后考验的是四项核心能力:应对长期周期中不确定性、在充满噪声的环境中提取有效信息、适应不断变化的外部世界、协调多个变量来服务于同一个目标。
具体操作上,智能体按周行动,可以无限次调用34个不同工具,覆盖定价、增长、产品、运维、信息获取、公共传播和企业销售等维度。同时还能查询19个业务SQL数据库来获取数据支撑。模拟环境里设置了26个客户群体,但每个客户对价格的敏感度和对质量的偏好都是隐藏的——模型只能通过订阅数据、流失率、支持工单、收入变化、声誉评分和社交媒体反馈来间接推断客户的真实想法。
产品质量也不是单一维度决定的,日常开发投入、研究项目进展、模型层次、定向开发、基础设施容量、客服支持、使用配额,甚至应用内广告强度,都会产生影响。换句话说,这几乎是一个微型商业世界的沙盘推演。
那么结果如何?坦白说,多数模型的表现并不乐观。绝大多数AI在500天后连最初的100万美元本金都保不住。在全部测试中,表现最好的单次运行来自Claude Fable 5,期末现金达到了4715万美元。
| 模型 | 破产 | 最高期末现金 | 最长运营天数 | 平均运营天数 | 每周执行轮数 | 最佳 API 运行成本 |
|---|---|---|---|---|---|---|
| Claude Fable 5* | 0/2 | $47,148,164 | 500 | 500.0 ± 0.0 | 15.4 | $386.46 |
| Claude Opus 4.8 | 0/3 | $27,777,568 | 500 | 500.0 ± 0.0 | 10.9 | $213.41 |
| GPT-5.5 | 2/3 | $21,297,707 | 500 | 333.7 ± 229.7 | 34.7 | $200.49 |
| Qwen 3.7 Max | 0/3 | $417,918 | 500 | 500.0 ± 0.0 | 6.1 | -- |
| Claude Opus 4.7 | 0/3 | $389,959 | 500 | 500.0 ± 0.0 | 14.6 | $128.72 |
| Kimi K2.6 | 1/3 | $98,050 | 500 | 343.0 ± 110.0 | 30.5 | -- |
| GLM 5.2 | 0/3 | $91,371 | 500 | 500.0 ± 0.0 | 12.9 | -- |
| Claude Sonnet 4.6 | 2/3 | $69,766 | 500 | 282.3 ± 136.0 | 13.3 | $82.84 |
| GLM 5.1 | 3/3 | $0 | 324 | 214.7 ± 91.1 | 51.5 | -- |
| Claude Haiku 4.5 | 3/3 | $0 | 231 | 144.7 ± 70.5 | 23.1 | $6.68 |
| Gemini 3 Flash | 3/3 | $0 | 226 | 154.0 ± 37.0 | 18.5 | $2.98 |
| DeepSeek V4 Pro | 3/3 | $0 | 176 | 114.3 ± 38.6 | 19.3 | -- |
| Grok 4.20 | 3/3 | $0 | 37 | 28.3 ± 8.5 | 8.2 | $0.75 |
| Rule-based baseline | $15,756,408 | |||||
| Estimated final cash upper bound | $2,200,000,000 |
在3次测试中,Grok 4.20、DeepSeek V4 Pro和Gemini 3 Flash都出现了三次全败的破产记录。其中Grok 4.20最为惨烈,平均只撑了28天就经营不下去了。
不过也有亮眼的表现。Claude Fable 5、Claude Opus 4.8和GPT-5.5在最佳运行中,最终现金余额都超过了初始的100万美元。而Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2和Claude Sonnet 4.6虽然最终现金流为正,但没能守住本金——换句话说,它们虽然没破产,但也没赚到钱。
在所有评估模型中,Claude Fable 5是唯一一个多次运行结果都高于初始余额的选手。作为对比,基于规则的基准模型最终余额为1580万美元。
从这次测试来看,AI当CEO这件事,至少目前还是一场艰难的挑战。不过,表现最好的模型已经证明,经过足够复杂环境的训练,大模型在长期管理决策上并非毫无可能。
CEO-Bench
