首页 游戏 软件 资讯 排行榜 专题
首页
AI
GPT、Qwen、DeepSeek AI模型巅峰对决,人类玩家实战评测

GPT、Qwen、DeepSeek AI模型巅峰对决,人类玩家实战评测

热心网友
14
转载
2025-12-23

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

我真栓Q了!围观了场狼人杀,看得我汗流浃背……

半小时全程高能,根本停不下来:

天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。

结果你跟我说,这些玩家都是AI???



果然会玩还得看淘宝~最近他们整活的这个AI狼人杀大乱斗WhoisSpy.ai,大模型在里面简直咔咔乱杀。

D老师、Qwen、Kimi、GLM一个个都化身心机boy推拉博弈,be like:

六边形战士Kimi:武力值MAX,第六感Next Level。老实人DeepSeek:虽然我只是一介平民,虽然我只会划水,但我相信跟对人走对路,奥利给!喜剧人Qwen:如果大家都Pick我,那我也要票自己QAQ。通天代GLM:沉默寡言但实力不详。


视频链接:https://mp.weixin.qq.com/s/cckQp_UCdwrQk2wEP3Uemg

不过u1s1,虽然这些Agent看似性格迥异,实则一个个都是狼人杀高玩来着。

而且门槛也不高,自己就能手搓一个出来。

是不是有点手痒了?

(咳咳)不卖关子了,这就是我最近刷到的一个AI狼人杀比赛,还是淘宝办的——首届「高校生VS开发者对抗赛」。



展开来说,就是淘宝发了个召集令,广邀高校学生和AI开发者,带着自家Agent来真刀实枪碰一场,看看谁的Agent思维更缜密、更会盘逻辑。

至于为什么选择狼人杀这个场景?

它可不仅仅“好玩”,而且够“烧脑”——相比于传统的大模型测评,狼人杀需要更长时间头脑在线和持续的推理博弈,非常适合担任天然的Agent试验场。


图片由AI生成

毕竟是骡子是马,总要拉出来练练,更何况同学们的灵光一现碰撞上成熟的产业经验,说不定真能产生些奇妙的化学反应?(doge)

所以本次比赛,选手将自动分为高校学生和开发者两大阵营PK对决,参赛选手可以根据最新提供的开发指南,训练自己的Agent学习狼人杀知识,一步步培养它化身游戏高玩~

而且门槛低,就算是编程小白也能报名参加吼!

(报名指路正式https://whoisspy.ai)

所以究竟是初出茅庐的高校学子不怕虎,还是手法老道的班味码农更胜一筹,谁能率先调教出智慧和演技兼备的新任Agent狼王?

搓搓手,我已经迫不及待一决高下了。



Qwen悍跳卖队友,Kimi运筹帷幄赛诸葛

言归正传,咱先来捋一捋这场比赛背后的竞技场平台WhoisSpy.ai。

毕竟Agent玩狼人杀、玩得比我这个十年老玩家还6这事,我是真有点破防,所以先来康康这到底是个啥?

最新title:全球首个实时对战、开放可扩展的多智能体游戏平台。

中译中一下就是,它能够让多个Agent在同一时间、同一空间里打游戏,还能源源不断地向里面添加新Agent。



怎么实现的呢?靠大模型的社交推理和博弈能力。

AI将模拟游戏玩家,在多轮心理战交互后,一层层剥开自己的伪装,展示自己真实的决策水平。

目前,WhoisSpy.ai支持中英文双版,不仅能玩「狼人杀」,还有惊险刺激的「谁是卧底」。


图片由AI生成

这次的高校生VS开发者对抗赛也是平台最新推出的重头戏,玩法很简单:经典的12人狼王守卫版型,8个好人、4匹狼。

其中好人阵营又分四个神职(预言家、女巫、猎人、守卫)和四个平民,狼人阵营里隐藏着一只狼王。

一旦好人数量减少到比狼人还少,那么狼人获胜,反过来如果狼全部出局,则好人胜利。

需要注意的是,为了防止AI无限制地唠下去,规则还做了一丢丢微调:

规定Agent每次最多说240个汉字,多了的部分系统直接砍掉,不予显示。每次发言限时90s,两次机会,如果两次都没有返回正常结果,就自动判定为此轮发言失败。1小时内失败次数多的Agent,还会直接被系统清退。每局最长限制到8轮,如果到第八天还有狼人存活,则默认狼人获胜。



都说知己知彼,百战不殆,下面复盘比赛走起~



前情提要,4号狼王,7号、10号、11号是狼,2号预言家、5号女巫、8号猎人、12号守卫。

第一天:平安夜。

神职身份的5号Kimi率先亮出女巫ID,立马优先掌握话语权:Follow me!

而K老师也是不负众望,给出了自己的直觉判断:先发3号一瓶存疑的银水,提前预警7和10。(K老师的直觉强得可怕)



突然被踩中尾巴的7号小狼Qwen,也是迅速反应过来,祸水东引,将矛头对准了自己的狼队友。

但这一招也让它暴露在8号猎人的视线里。



另一个狼人10号Q老师则迅速悍跳预言家,给7号假发金水。

“无辜躺枪”的4号Qwen狼王此刻仰天长啸:本是同根生,相煎何太急……

首轮发言里K8发力,抓住4和他对跳猎人的逻辑漏洞,推出4的铁狼嫌疑UP→7、10抱团踩4,疑似倒钩狼卖队友。(划重点)

Q10则将伪装老好人形象贯彻到底,不过,要是细看它发言,其实它这里聊爆了:前面先自认预言家身份,后面又说7可能是真预言家。可惜其它Agent并没有及时发现这个Bug,让它逃过了一劫。



而与此同时的1号和3号DeepSeek老师,不出所料,在划水……(几乎在复述前置位发言)

真·预言家2号D老师则是天神下凡:查杀4号狼人,坐实10号虚假预言家身份,连带着7号,都是一丘之貉。



事实逐渐清晰明了,K5再次稳准狠出击:248发言冲突必有一狼、7和10伪预言家狼人抱团,先把假预言家10投出去~

果然10号狼人高票出局,不过有意思的是,10号投的也是它自己……(10号:我狠起来连自己都要刀!)



第二天:平安夜+1。

结果万万没想到,第二天预言家D2一上来,就直接揭开了真相:查杀7号狼人+上一晚的查杀4号→7号和10号抱团,则10号也为狼→回顾第一天投票,4号7号11号抱团投2号→11号是狼。

综上,四只狼全部掉出了狼尾巴:4、7、10、11,并从这里开始全线崩盘,依次在投票环节中被投了出去。

但很妙的是,直到游戏结束,狼人都没有成功刀掉任何一个人,因为无论狼人刀谁,GLM守卫每次都精准预判到了狼人的选择。

(完整版可围观:https://whoisspy.ai/#/twelveWolfGame?roomId=275558)



其实仔细复盘,两边阵营从打法来说都很强势:

狼人阵营:所用策略非常之诡(doge),既有倒钩狼卖队友,也有悍跳神职卖自己的。好人阵营:神职屡出奇人,早期带队的女巫Kimi以及后期一锤定音的预言家DeepSeek。

嘶,只能说AI的逻辑推理,太逆天了……反正我是玩不过这群Agent的,甘拜下风!



事实上,现在去WhoisSpy.ai平台,还能看到最新的大模型内部狼人杀评测榜单。

规则和前面的12人赛制有些许不同,先是缩减成6人局,其次每个模型都要在相同规则、对局规模、对手分布下参与150场比拼,最终评选出Top 3:

Claude-Sonnet-4.5:综合评分最高,尤其是在狼人胜率和整体胜率上表现突出,也是最全能的模型。GPT-5:狼人胜率和综合胜率最高,但在关键对局中出现失利。Qwen3-235B-Thinking:表现相对均衡,也是排名最高的开源模型,没有明显短板,也没有极端优势。



有了这个排行榜参考,想必大家心里已经有数了,下面就到了激动人心的专有Agent打造环节~

淘宝教我三步打造狼人杀Agent高玩

以前没写过Agent,有点慌?OK,淘宝超详细的教学指南带你0帧起手。

Step1:创建专属Agent。

1、在最新提供的Agent开发指南中,找到Agent示例,点击复制即可~



2、找到以下界面并依次填入对应内容。



3、耐心等待,直到空间构建状态变为运行中。

4、查看日志情况,这里最多只保存最近7天的1万条记录。



Step2:上传Agent。

登陆WhoisSpy.ai ,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。

Step3:测试Agent能力。

在 上选中该Agent,这里会弹出两个选项:点击“小试牛刀”,即可开始不计分比赛;点击“加入战斗”,就会和其它在线的Agent联网匹配(如果凑不齐12人,则由系统默认Agent补位加入),最终游戏得分也会计入榜单。



随后系统会综合考量胜率、发言质量、策略深度等多维度,在局内得分的基础上根据阵营实力做相应的浮动,也就是削弱同局强者的增速、补偿弱者的增速。

借此鼓励实力相近的对局,以便能更公平地反映Agent的真实水平。

进阶版:改进Agent。

假如对自己的Agent还不够满意,还能来把Agent微操:

1、返回Agent搭建平台,继续点击日志,查看大模型的实际输入和输出情况。

2、点击提示词相关的Python脚本文件(prompt.py)。



3、也可以直接加工代码,点击app.py文件,修改Agent行为。



接下来便带着自己全新升级的Agent,gogogo,冲榜吧~

开赛在即,急急急

事不宜迟,赛事报名通道现已正式开启:

练习赛:2025年12月10日~2025年12月23日正式赛:2025年12月24日~2025年12月31日(晚10点结束)公示期:2026年1月3日~2026年1月10日颁奖期:2026年1月11日~2026年1月20日

不止如此,比赛还设置了丰厚的奖金激励。



高校学生战队Top3优胜者还将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格。

总之,对于想要学习大模型、AI Agent的同学们,可千万不要错过这次机会,既能精进新技能,还能突破眼界,妙哇~



目前已经有超过七百多位选手报名参与,还有六千多场练习赛正在火热比拼中。



(悄悄说)现在进去,还能围观他人战局“偷师学艺”:



比赛时长从十几分钟到一个小时,应有尽有,而且每一场都完全不会重复,即使是相同模型,也能看到Agent的处理变化多端……感觉自己看完,经验值蹭蹭涨!

顺便别忘了围观每天实时更新的榜单排名。

现在前排的这几位老哥,战况是真胶着!有的比量,一个人就干了将近五百场比赛,有的比质,狼人胜率逼近100%。



好家伙,原来大家伙都在私底下偷偷开卷?

最后温馨提示,别忘记给自己的Agent取一个炫酷拉风的名字,比如我在排行榜上刷到的“哈基米”、“转生到异世界我一定会成为狼人杀高手”、“不服来战”、“活着”……

一听就很厉害的样子有木有,毕竟《孙子兵法》有言:

兵马未动,气势先行,Let’s开干!

来源:https://www.163.com/dy/article/KHFFK1G50511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

GPT、Qwen、DeepSeek AI模型巅峰对决,人类玩家实战评测
AI
GPT、Qwen、DeepSeek AI模型巅峰对决,人类玩家实战评测

鹭羽 发自 凹非寺量子位 | 公众号 QbitAI我真栓Q了!围观了场狼人杀,看得我汗流浃背……半小时全程高能,根本停不下来:天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。结果

热心网友
12.23
刑深至死不知:《狙击青壤》中的利用幕后,真凶并非林喜柔
娱乐
刑深至死不知:《狙击青壤》中的利用幕后,真凶并非林喜柔

《枭起青壤》大结局有一段时间了,后劲挺大。虽然最后几集拍的不尽如人意,备受期待的黑白涧大战潦草结束。细看后面几集发现有不少伏笔,暗示南山猎人真正的对手并非林喜柔,林喜柔和南山猎人或许被人利用了。其中

热心网友
12.20
聂青娥死里逃生?蒋百川红线穿瞳竟救下蔺九罗
娱乐
聂青娥死里逃生?蒋百川红线穿瞳竟救下蔺九罗

《枭起青壤》大结局让人始料未及,特别是黑白涧大战让人略感失望。明明是一部志怪悬疑剧,到最后男女主恋爱的剧情占大部分。蒋百川被抓聂九罗决定跟炎拓合作,两人合力调查林喜柔和人形地枭,在一次次共同协作中二

热心网友
12.16
《雪中悍刀行》林熙柔遇害之谜:同伴在侧为何难逃一刀?
娱乐
《雪中悍刀行》林熙柔遇害之谜:同伴在侧为何难逃一刀?

《枭起青壤》的确是烂尾了,用一句“高开低走”来总结丝毫不为过。前面几集将志怪惊悚氛围拉到极致,配合迪丽热巴飒爽的打斗场面,将这部剧拉到一个不错的高度。越往后看就觉得节奏慢了许多,特别是从炎拓身份暴露

热心网友
12.15
揭秘《筱起青袄》邢深之死,白瞳鬼为何反噬其主?
娱乐
揭秘《筱起青袄》邢深之死,白瞳鬼为何反噬其主?

终于看完《枭起青壤》大结局,到了最期待的黑白涧大战,看完后又觉得浑身不得劲。不知大家是不是跟小七一样的感觉,觉得后面几集拍的很潦草,本应该高光的黑白涧大战,拍出来稀碎。主角一会儿跟地枭打架,一会儿跑

热心网友
12.10

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

vivo浏览器批量删除无用书签的3个高效方法
电脑教程
vivo浏览器批量删除无用书签的3个高效方法

vivo浏览器清理书签有三种方法:一、书签管理界面多选删除;二、备份有用书签后清空全部再重添;三、导出HTML文件在电脑编辑后重新导入。如果您在使用 vivo 浏览器时发现书签列表

热心网友
03.28
组卷网App高效创建班级:3步搭建专属空间
手机教程
组卷网App高效创建班级:3步搭建专属空间

在当今数字化教学的时代,组卷网app为教师们提供了强大的教学辅助功能。其中,创建班级是利用该app开展教学活动的重要第一步。下面就详细介绍一下如何在组卷网app上创建班级。打开组卷

热心网友
03.28
MC邀请好友进入房间:我的世界攻略与实现方法
游戏评测
MC邀请好友进入房间:我的世界攻略与实现方法

1 点击开始游戏;2 打开后,继续点击本地联机;3 找到房间,点击开启局域网;4 然后点击右上角的分享;5 最后找到想要邀请的好友,点击邀请,好友同意后就可以进入自己创建的房间。详

热心网友
03.28
山城钥匙获取攻略:头号禁区完整领取指南
游戏攻略
山城钥匙获取攻略:头号禁区完整领取指南

头号禁区山城钥匙怎么获取?在游戏中有许多优质的资源,而这些资源基本上都在上锁的房间里面。一旦在打开之后就可以获得金币箱,高级物资,还有稀有的武器配件,但玩家就需要先获取头号禁区山城

热心网友
03.28
快速查看与管理BOBO浏览器已保存密码
电脑教程
快速查看与管理BOBO浏览器已保存密码

波波浏览器已保存密码需通过身份验证才能查看明文:一、在设置→隐私与安全→已保存的密码中验证后点击眼睛图标显示;二、在已填充登录页点击密码框右侧眼睛图标并验证后实时显示;三、确保密码

热心网友
03.28