AI老板500天模拟经营多数亏损Claude Fable 5领先_AI热点日报

AI老板500天模拟经营多数亏损Claude Fable 5领先

类型：热点整理2026-07-02

很长一段时间里，关于AI能否替代人类管理者的讨论始终没有停过。最近一项来自普林斯顿大学的实验，给出了相当直观的答案。6月底，普林斯顿大学发布了一个名为CEO-Bench的基准测试，核心玩法很简单：让AI模型模拟一家创业公司的首席执行官，在虚拟环境中经营500天，启动资金是100万美元（约合680 4

很长一段时间里，关于AI能否替代人类管理者的讨论始终没有停过。最近一项来自普林斯顿大学的实验，给出了相当直观的答案。

6月底，普林斯顿大学发布了一个名为CEO-Bench的基准测试，核心玩法很简单：让AI模型模拟一家创业公司的首席执行官，在虚拟环境中经营500天，启动资金是100万美元（约合680.4万元软妹币）。结果呢？绝大多数模型都亏得底朝天，直接破产。

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

这个测试可不是闹着玩的。它专门考察AI在长期、多变量环境下的管理能力。500天的模拟周期里，模型需要持续处理定价策略、预算分配、竞争分析、战略制定等一系列环环相扣的商业决策。这背后考验的是四项核心能力：应对长期周期中不确定性、在充满噪声的环境中提取有效信息、适应不断变化的外部世界、协调多个变量来服务于同一个目标。

具体操作上，智能体按周行动，可以无限次调用34个不同工具，覆盖定价、增长、产品、运维、信息获取、公共传播和企业销售等维度。同时还能查询19个业务SQL数据库来获取数据支撑。模拟环境里设置了26个客户群体，但每个客户对价格的敏感度和对质量的偏好都是隐藏的——模型只能通过订阅数据、流失率、支持工单、收入变化、声誉评分和社交媒体反馈来间接推断客户的真实想法。

产品质量也不是单一维度决定的，日常开发投入、研究项目进展、模型层次、定向开发、基础设施容量、客服支持、使用配额，甚至应用内广告强度，都会产生影响。换句话说，这几乎是一个微型商业世界的沙盘推演。

那么结果如何？坦白说，多数模型的表现并不乐观。绝大多数AI在500天后连最初的100万美元本金都保不住。在全部测试中，表现最好的单次运行来自Claude Fable 5，期末现金达到了4715万美元。

模型	破产	最高期末现金	最长运营天数	平均运营天数	每周执行轮数	最佳 API 运行成本
Claude Fable 5*	0/2	$47,148,164	500	500.0 ± 0.0	15.4	$386.46
Claude Opus 4.8	0/3	$27,777,568	500	500.0 ± 0.0	10.9	$213.41
GPT-5.5	2/3	$21,297,707	500	333.7 ± 229.7	34.7	$200.49
Qwen 3.7 Max	0/3	$417,918	500	500.0 ± 0.0	6.1	--
Claude Opus 4.7	0/3	$389,959	500	500.0 ± 0.0	14.6	$128.72
Kimi K2.6	1/3	$98,050	500	343.0 ± 110.0	30.5	--
GLM 5.2	0/3	$91,371	500	500.0 ± 0.0	12.9	--
Claude Sonnet 4.6	2/3	$69,766	500	282.3 ± 136.0	13.3	$82.84
GLM 5.1	3/3	$0	324	214.7 ± 91.1	51.5	--
Claude Haiku 4.5	3/3	$0	231	144.7 ± 70.5	23.1	$6.68
Gemini 3 Flash	3/3	$0	226	154.0 ± 37.0	18.5	$2.98
DeepSeek V4 Pro	3/3	$0	176	114.3 ± 38.6	19.3	--
Grok 4.20	3/3	$0	37	28.3 ± 8.5	8.2	$0.75
Rule-based baseline		$15,756,408
Estimated final cash upper bound		$2,200,000,000

在3次测试中，Grok 4.20、DeepSeek V4 Pro和Gemini 3 Flash都出现了三次全败的破产记录。其中Grok 4.20最为惨烈，平均只撑了28天就经营不下去了。

不过也有亮眼的表现。Claude Fable 5、Claude Opus 4.8和GPT-5.5在最佳运行中，最终现金余额都超过了初始的100万美元。而Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2和Claude Sonnet 4.6虽然最终现金流为正，但没能守住本金——换句话说，它们虽然没破产，但也没赚到钱。

在所有评估模型中，Claude Fable 5是唯一一个多次运行结果都高于初始余额的选手。作为对比，基于规则的基准模型最终余额为1580万美元。

从这次测试来看，AI当CEO这件事，至少目前还是一场艰难的挑战。不过，表现最好的模型已经证明，经过足够复杂环境的训练，大模型在长期管理决策上并非毫无可能。

CEO-Bench

来源：https://www.ithome.com/0/970/502.htm

Claude

延伸阅读

补充最近整理过的热点入口。

AI老板500天模拟经营多数亏损Claude Fable 5领先

相关热点

延伸阅读