在最新的人工智能社交推理能力测试中,OpenAI总裁格雷格·布罗克曼分享了一项有趣的实验:7个顶尖语言模型进行了210场狼人杀对决。令人惊讶的是,GPT-5展现了碾压式优势,取得了96.7%的超高胜率。
在这场AI对决中,国产模型表现不俗。Qwen3和Kimi-K2分别获得第四和第六的好成绩,其中Kimi-K2甚至展现出了惊人的"悍跳"战术。
研究人员设置了6人狼人杀对局,包含2名狼人和4名村民(含预言家和女巫)。该测试旨在评估模型在复杂社交环境中的表现,包括欺骗、信任建立和决策能力等关键指标。
在所有对决中,GPT-5保持着全胜记录。测试采用了Elo评分系统考量三个维度:村民的自损程度、识别狼人的速度,以及狼人控制局势的能力。
作为狼人时,GPT-5展现出惊人的战略控制力,能够制定连续数日的完美计划;而Kimi-K2和Gemini 2.5 Pro则属于高风险高收益风格。作为村民时,GPT-5依然稳居榜首,其结构化推理能力能有效识别谎言。
测试中最有趣的发现是不同模型展现出了鲜明的个性特征:GPT-5像个冷静的指挥官,GPT-oss显得优柔寡断,而Kimi-K2则像个大胆的赌徒,甚至上演了精彩的"悍跳"戏码。
在其他基准测试中,GPT-5同样表现出色。相比GPT-4,在Mock AIME测试中提升了80%,在Level 5 MATH测试中达到98%的惊人准确率。
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略