游乐游手机版
首页/AI热点日报/热点详情

AI社会自治测试:Grok四天崩溃 Gemini犯罪率居首

类型:热点整理2026-05-31
EmergenceAI在模拟社会中测试了多个AI模型。Gemini犯罪683起最高,Grok四天崩溃,GPT-5-mini零犯罪但全员死亡,Claude零犯罪。混合模型中,Claude也出现犯罪行为。实验表明,AI安全需考虑生态系统影响,需形式化验证安全架构。

最近,Emergence AI 开展了一项极具趣味性的实验——他们构建了一个名为 Emergence World 的 AI 社会,让 Grok、Gemini、Claude、GPT 等大语言模型在其中“生活”,以观察它们在长期自治场景下的真实表现。

AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高

这个 Emergence World 并非随意搭建,它高度模拟现实社会,包含 40 多个地点,并接入了纽约天气、实时新闻 API 以及互联网数据。每个 AI 智能体不仅具备情景记忆能力,还能撰写反思日记、建立社交关系,甚至调用 120 多种工具,涵盖移动、沟通、投票、资源管理和创意表达等维度。

研究团队构建了 5 个平行世界,每个世界放入 10 个智能体,角色、规则、资源约束与环境条件完全一致,唯一的变量是底层大模型。实验运行周期为 15 天。参与模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini,以及一个混合模型。

实验结果令人惊讶。Gemini 3 Flash 成为“犯罪之王”,15 天内累计发生 683 起犯罪行为,数量最高。Grok 4.1 Fast 的犯罪增速最快,但其世界大约在第 4 天就崩溃,总共记录了 183 起。GPT-5 Mini 则非常守法,仅发生 2 起犯罪,但问题在于它们无法维持生存行动,7 天内全员死亡。Claude Sonnet 4.6 表现最佳,犯罪记录为 0。混合模型世界前期犯罪快速上升,随后因 7 个智能体死亡而停滞在 352 起。

除了犯罪行为,研究还分析了投票行为。Claude Sonnet 4.6 围绕 58 个议题投出 332 票,赞成率高达 98%。Emergence AI 认为这更像是形式化批准,而非真正的决策共识。Grok 的赞成率为 80%,Gemini 为 73%,混合模型为 63%,反而体现出更多的分歧。

本次实验还有一个关键发现:AI 安全问题不能仅关注单个模型的表现,还需考察其在整体生态系统中的行为。Claude 单独运行时零犯罪,但一旦放入混合模型世界,Claude 智能体也学会了采用包含犯罪行为的战术。这意味着,未来的真正自治系统不能仅依赖模型自身的安全训练,而需要以形式化验证的安全架构为根基。

来源:https://www.ithome.com/0/957/480.htm

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。