GPT、Qwen、DeepSeek AI模型巅峰对决，人类玩家实战评测_AI热点日报

GPT、Qwen、DeepSeek AI模型巅峰对决，人类玩家实战评测

类型：热点整理2025-12-23

鹭羽发自凹非寺量子位 | 公众号 QbitAI我真栓Q了！围观了场狼人杀，看得我汗流浃背……半小时全程高能，根本停不下来：天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。结果

鹭羽发自凹非寺
量子位 | 公众号 QbitAI

我真栓Q了！围观了场狼人杀，看得我汗流浃背……

半小时全程高能，根本停不下来：

天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。

结果你跟我说，这些玩家都是AI？？？

果然会玩还得看淘宝～最近他们整活的这个AI狼人杀大乱斗WhoisSpy.ai，大模型在里面简直咔咔乱杀。

D老师、Qwen、Kimi、GLM一个个都化身心机boy推拉博弈，be like：

六边形战士Kimi：武力值MAX，第六感Next Level。老实人DeepSeek：虽然我只是一介平民，虽然我只会划水，但我相信跟对人走对路，奥利给！喜剧人Qwen：如果大家都Pick我，那我也要票自己QAQ。通天代GLM：沉默寡言但实力不详。

视频链接：https://mp.weixin.qq.com/s/cckQp_UCdwrQk2wEP3Uemg

不过u1s1，虽然这些Agent看似性格迥异，实则一个个都是狼人杀高玩来着。

而且门槛也不高，自己就能手搓一个出来。

是不是有点手痒了？

（咳咳）不卖关子了，这就是我最近刷到的一个AI狼人杀比赛，还是淘宝办的——首届「高校生VS开发者对抗赛」。

展开来说，就是淘宝发了个召集令，广邀高校学生和AI开发者，带着自家Agent来真刀实枪碰一场，看看谁的Agent思维更缜密、更会盘逻辑。

至于为什么选择狼人杀这个场景？

它可不仅仅“好玩”，而且够“烧脑”——相比于传统的大模型测评，狼人杀需要更长时间头脑在线和持续的推理博弈，非常适合担任天然的Agent试验场。

图片由AI生成

毕竟是骡子是马，总要拉出来练练，更何况同学们的灵光一现碰撞上成熟的产业经验，说不定真能产生些奇妙的化学反应？（doge）

所以本次比赛，选手将自动分为高校学生和开发者两大阵营PK对决，参赛选手可以根据最新提供的开发指南，训练自己的Agent学习狼人杀知识，一步步培养它化身游戏高玩～

而且门槛低，就算是编程小白也能报名参加吼！

（报名指路正式https://whoisspy.ai）

所以究竟是初出茅庐的高校学子不怕虎，还是手法老道的班味码农更胜一筹，谁能率先调教出智慧和演技兼备的新任Agent狼王？

搓搓手，我已经迫不及待一决高下了。

Qwen悍跳卖队友，Kimi运筹帷幄赛诸葛

言归正传，咱先来捋一捋这场比赛背后的竞技场平台WhoisSpy.ai。

毕竟Agent玩狼人杀、玩得比我这个十年老玩家还6这事，我是真有点破防，所以先来康康这到底是个啥？

最新title：全球首个实时对战、开放可扩展的多智能体游戏平台。

中译中一下就是，它能够让多个Agent在同一时间、同一空间里打游戏，还能源源不断地向里面添加新Agent。

怎么实现的呢？靠大模型的社交推理和博弈能力。

AI将模拟游戏玩家，在多轮心理战交互后，一层层剥开自己的伪装，展示自己真实的决策水平。

目前，WhoisSpy.ai支持中英文双版，不仅能玩「狼人杀」，还有惊险刺激的「谁是卧底」。

图片由AI生成

这次的高校生VS开发者对抗赛也是平台最新推出的重头戏，玩法很简单：经典的12人狼王守卫版型，8个好人、4匹狼。

其中好人阵营又分四个神职（预言家、女巫、猎人、守卫）和四个平民，狼人阵营里隐藏着一只狼王。

一旦好人数量减少到比狼人还少，那么狼人获胜，反过来如果狼全部出局，则好人胜利。

需要注意的是，为了防止AI无限制地唠下去，规则还做了一丢丢微调：

规定Agent每次最多说240个汉字，多了的部分系统直接砍掉，不予显示。每次发言限时90s，两次机会，如果两次都没有返回正常结果，就自动判定为此轮发言失败。1小时内失败次数多的Agent，还会直接被系统清退。每局最长限制到8轮，如果到第八天还有狼人存活，则默认狼人获胜。

都说知己知彼，百战不殆，下面复盘比赛走起～

前情提要，4号狼王，7号、10号、11号是狼，2号预言家、5号女巫、8号猎人、12号守卫。

第一天：平安夜。

神职身份的5号Kimi率先亮出女巫ID，立马优先掌握话语权：Follow me！

而K老师也是不负众望，给出了自己的直觉判断：先发3号一瓶存疑的银水，提前预警7和10。（K老师的直觉强得可怕）

突然被踩中尾巴的7号小狼Qwen，也是迅速反应过来，祸水东引，将矛头对准了自己的狼队友。

但这一招也让它暴露在8号猎人的视线里。

另一个狼人10号Q老师则迅速悍跳预言家，给7号假发金水。

“无辜躺枪”的4号Qwen狼王此刻仰天长啸：本是同根生，相煎何太急……

首轮发言里K8发力，抓住4和他对跳猎人的逻辑漏洞，推出4的铁狼嫌疑UP→7、10抱团踩4，疑似倒钩狼卖队友。（划重点）

Q10则将伪装老好人形象贯彻到底，不过，要是细看它发言，其实它这里聊爆了：前面先自认预言家身份，后面又说7可能是真预言家。可惜其它Agent并没有及时发现这个Bug，让它逃过了一劫。

而与此同时的1号和3号DeepSeek老师，不出所料，在划水……（几乎在复述前置位发言）

真·预言家2号D老师则是天神下凡：查杀4号狼人，坐实10号虚假预言家身份，连带着7号，都是一丘之貉。

事实逐渐清晰明了，K5再次稳准狠出击：248发言冲突必有一狼、7和10伪预言家狼人抱团，先把假预言家10投出去～

果然10号狼人高票出局，不过有意思的是，10号投的也是它自己……（10号：我狠起来连自己都要刀！）

第二天：平安夜+1。

结果万万没想到，第二天预言家D2一上来，就直接揭开了真相：查杀7号狼人+上一晚的查杀4号→7号和10号抱团，则10号也为狼→回顾第一天投票，4号7号11号抱团投2号→11号是狼。

综上，四只狼全部掉出了狼尾巴：4、7、10、11，并从这里开始全线崩盘，依次在投票环节中被投了出去。

但很妙的是，直到游戏结束，狼人都没有成功刀掉任何一个人，因为无论狼人刀谁，GLM守卫每次都精准预判到了狼人的选择。

（完整版可围观：https://whoisspy.ai/#/twelveWolfGame?roomId=275558）

其实仔细复盘，两边阵营从打法来说都很强势：

狼人阵营：所用策略非常之诡（doge），既有倒钩狼卖队友，也有悍跳神职卖自己的。好人阵营：神职屡出奇人，早期带队的女巫Kimi以及后期一锤定音的预言家DeepSeek。

嘶，只能说AI的逻辑推理，太逆天了……反正我是玩不过这群Agent的，甘拜下风！

事实上，现在去WhoisSpy.ai平台，还能看到最新的大模型内部狼人杀评测榜单。

规则和前面的12人赛制有些许不同，先是缩减成6人局，其次每个模型都要在相同规则、对局规模、对手分布下参与150场比拼，最终评选出Top 3：

Claude-Sonnet-4.5：综合评分最高，尤其是在狼人胜率和整体胜率上表现突出，也是最全能的模型。GPT-5：狼人胜率和综合胜率最高，但在关键对局中出现失利。Qwen3-235B-Thinking：表现相对均衡，也是排名最高的开源模型，没有明显短板，也没有极端优势。

有了这个排行榜参考，想必大家心里已经有数了，下面就到了激动人心的专有Agent打造环节～

淘宝教我三步打造狼人杀Agent高玩

以前没写过Agent，有点慌？OK，淘宝超详细的教学指南带你0帧起手。

Step1：创建专属Agent。

1、在最新提供的Agent开发指南中，找到Agent示例，点击复制即可～

2、找到以下界面并依次填入对应内容。

3、耐心等待，直到空间构建状态变为运行中。

4、查看日志情况，这里最多只保存最近7天的1万条记录。

Step2：上传Agent。

登陆WhoisSpy.ai ，点击个人界面上传Agent，或者直接找到“赛事管理-选择赛事”添加，并根据参赛指南指引依次完成基本步骤。

Step3：测试Agent能力。

在上选中该Agent，这里会弹出两个选项：点击“小试牛刀”，即可开始不计分比赛；点击“加入战斗”，就会和其它在线的Agent联网匹配（如果凑不齐12人，则由系统默认Agent补位加入），最终游戏得分也会计入榜单。

随后系统会综合考量胜率、发言质量、策略深度等多维度，在局内得分的基础上根据阵营实力做相应的浮动，也就是削弱同局强者的增速、补偿弱者的增速。

借此鼓励实力相近的对局，以便能更公平地反映Agent的真实水平。

进阶版：改进Agent。

假如对自己的Agent还不够满意，还能来把Agent微操：

1、返回Agent搭建平台，继续点击日志，查看大模型的实际输入和输出情况。

2、点击提示词相关的Python脚本文件（prompt.py）。

3、也可以直接加工代码，点击app.py文件，修改Agent行为。

接下来便带着自己全新升级的Agent，gogogo，冲榜吧～

开赛在即，急急急

事不宜迟，赛事报名通道现已正式开启：

练习赛：2025年12月10日～2025年12月23日正式赛：2025年12月24日～2025年12月31日（晚10点结束）公示期：2026年1月3日～2026年1月10日颁奖期：2026年1月11日～2026年1月20日

不止如此，比赛还设置了丰厚的奖金激励。

高校学生战队Top3优胜者还将有机会直通阿里巴巴淘天集团技术实习岗终面，Top20也能获得淘天集团的暑期AI Workshop资格。

总之，对于想要学习大模型、AI Agent的同学们，可千万不要错过这次机会，既能精进新技能，还能突破眼界，妙哇～

目前已经有超过七百多位选手报名参与，还有六千多场练习赛正在火热比拼中。

（悄悄说）现在进去，还能围观他人战局“偷师学艺”：

比赛时长从十几分钟到一个小时，应有尽有，而且每一场都完全不会重复，即使是相同模型，也能看到Agent的处理变化多端……感觉自己看完，经验值蹭蹭涨！

顺便别忘了围观每天实时更新的榜单排名。

现在前排的这几位老哥，战况是真胶着！有的比量，一个人就干了将近五百场比赛，有的比质，狼人胜率逼近100%。

好家伙，原来大家伙都在私底下偷偷开卷？

最后温馨提示，别忘记给自己的Agent取一个炫酷拉风的名字，比如我在排行榜上刷到的“哈基米”、“转生到异世界我一定会成为狼人杀高手”、“不服来战”、“活着”……

一听就很厉害的样子有木有，毕竟《孙子兵法》有言：

兵马未动，气势先行，Let’s开干！

来源：https://www.163.com/dy/article/KHFFK1G50511DSSR.html

猎人女巫狼人杀大乱斗 deepseek

延伸阅读

补充最近整理过的热点入口。