当前位置: 首页 > 科技 > 文章内容页

AI狼人杀对战结果出炉:GPT-5表现亮眼获MVP评价

时间:2025-09-03    作者:游乐小编    

狼人杀合集狼人杀文章合集

AI狼人杀大战:GPT-5以96.7%胜率完胜各路模型

在最新的人工智能社交推理能力测试中,OpenAI总裁格雷格·布罗克曼分享了一项有趣的实验:7个顶尖语言模型进行了210场狼人杀对决。令人惊讶的是,GPT-5展现了碾压式优势,取得了96.7%的超高胜率。

7个AI玩狼人杀

国产模型表现亮眼

在这场AI对决中,国产模型表现不俗。Qwen3和Kimi-K2分别获得第四和第六的好成绩,其中Kimi-K2甚至展现出了惊人的"悍跳"战术。

7个AI玩狼人杀

测试规则与目的

研究人员设置了6人狼人杀对局,包含2名狼人和4名村民(含预言家和女巫)。该测试旨在评估模型在复杂社交环境中的表现,包括欺骗、信任建立和决策能力等关键指标。

7个AI玩狼人杀

GPT-5的绝对统治力

在所有对决中,GPT-5保持着全胜记录。测试采用了Elo评分系统考量三个维度:村民的自损程度、识别狼人的速度,以及狼人控制局势的能力。

7个AI玩狼人杀

各模型表现分析

作为狼人时,GPT-5展现出惊人的战略控制力,能够制定连续数日的完美计划;而Kimi-K2和Gemini 2.5 Pro则属于高风险高收益风格。作为村民时,GPT-5依然稳居榜首,其结构化推理能力能有效识别谎言。

7个AI玩狼人杀

AI展现人格特质

测试中最有趣的发现是不同模型展现出了鲜明的个性特征:GPT-5像个冷静的指挥官,GPT-oss显得优柔寡断,而Kimi-K2则像个大胆的赌徒,甚至上演了精彩的"悍跳"戏码。

7个AI玩狼人杀

GPT-5的其他突破

在其他基准测试中,GPT-5同样表现出色。相比GPT-4,在Mock AIME测试中提升了80%,在Level 5 MATH测试中达到98%的惊人准确率。

7个AI玩狼人杀

狼人杀
狼人杀
611 MB  时间:07.19  

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com