首页 游戏 软件 资讯 排行榜 专题
首页
AI
GPT、Qwen、DeepSeek AI模型巅峰对决,人类玩家实战评测

GPT、Qwen、DeepSeek AI模型巅峰对决,人类玩家实战评测

热心网友
50
转载
2025-12-23

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

我真栓Q了!围观了场狼人杀,看得我汗流浃背……

半小时全程高能,根本停不下来:

天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。

结果你跟我说,这些玩家都是AI???



果然会玩还得看淘宝~最近他们整活的这个AI狼人杀大乱斗WhoisSpy.ai,大模型在里面简直咔咔乱杀。

D老师、Qwen、Kimi、GLM一个个都化身心机boy推拉博弈,be like:

六边形战士Kimi:武力值MAX,第六感Next Level。老实人DeepSeek:虽然我只是一介平民,虽然我只会划水,但我相信跟对人走对路,奥利给!喜剧人Qwen:如果大家都Pick我,那我也要票自己QAQ。通天代GLM:沉默寡言但实力不详。


视频链接:https://mp.weixin.qq.com/s/cckQp_UCdwrQk2wEP3Uemg

不过u1s1,虽然这些Agent看似性格迥异,实则一个个都是狼人杀高玩来着。

而且门槛也不高,自己就能手搓一个出来。

是不是有点手痒了?

(咳咳)不卖关子了,这就是我最近刷到的一个AI狼人杀比赛,还是淘宝办的——首届「高校生VS开发者对抗赛」。



展开来说,就是淘宝发了个召集令,广邀高校学生和AI开发者,带着自家Agent来真刀实枪碰一场,看看谁的Agent思维更缜密、更会盘逻辑。

至于为什么选择狼人杀这个场景?

它可不仅仅“好玩”,而且够“烧脑”——相比于传统的大模型测评,狼人杀需要更长时间头脑在线和持续的推理博弈,非常适合担任天然的Agent试验场。


图片由AI生成

毕竟是骡子是马,总要拉出来练练,更何况同学们的灵光一现碰撞上成熟的产业经验,说不定真能产生些奇妙的化学反应?(doge)

所以本次比赛,选手将自动分为高校学生和开发者两大阵营PK对决,参赛选手可以根据最新提供的开发指南,训练自己的Agent学习狼人杀知识,一步步培养它化身游戏高玩~

而且门槛低,就算是编程小白也能报名参加吼!

(报名指路正式https://whoisspy.ai)

所以究竟是初出茅庐的高校学子不怕虎,还是手法老道的班味码农更胜一筹,谁能率先调教出智慧和演技兼备的新任Agent狼王?

搓搓手,我已经迫不及待一决高下了。



Qwen悍跳卖队友,Kimi运筹帷幄赛诸葛

言归正传,咱先来捋一捋这场比赛背后的竞技场平台WhoisSpy.ai。

毕竟Agent玩狼人杀、玩得比我这个十年老玩家还6这事,我是真有点破防,所以先来康康这到底是个啥?

最新title:全球首个实时对战、开放可扩展的多智能体游戏平台。

中译中一下就是,它能够让多个Agent在同一时间、同一空间里打游戏,还能源源不断地向里面添加新Agent。



怎么实现的呢?靠大模型的社交推理和博弈能力。

AI将模拟游戏玩家,在多轮心理战交互后,一层层剥开自己的伪装,展示自己真实的决策水平。

目前,WhoisSpy.ai支持中英文双版,不仅能玩「狼人杀」,还有惊险刺激的「谁是卧底」。


图片由AI生成

这次的高校生VS开发者对抗赛也是平台最新推出的重头戏,玩法很简单:经典的12人狼王守卫版型,8个好人、4匹狼。

其中好人阵营又分四个神职(预言家、女巫、猎人、守卫)和四个平民,狼人阵营里隐藏着一只狼王。

一旦好人数量减少到比狼人还少,那么狼人获胜,反过来如果狼全部出局,则好人胜利。

需要注意的是,为了防止AI无限制地唠下去,规则还做了一丢丢微调:

规定Agent每次最多说240个汉字,多了的部分系统直接砍掉,不予显示。每次发言限时90s,两次机会,如果两次都没有返回正常结果,就自动判定为此轮发言失败。1小时内失败次数多的Agent,还会直接被系统清退。每局最长限制到8轮,如果到第八天还有狼人存活,则默认狼人获胜。



都说知己知彼,百战不殆,下面复盘比赛走起~



前情提要,4号狼王,7号、10号、11号是狼,2号预言家、5号女巫、8号猎人、12号守卫。

第一天:平安夜。

神职身份的5号Kimi率先亮出女巫ID,立马优先掌握话语权:Follow me!

而K老师也是不负众望,给出了自己的直觉判断:先发3号一瓶存疑的银水,提前预警7和10。(K老师的直觉强得可怕)



突然被踩中尾巴的7号小狼Qwen,也是迅速反应过来,祸水东引,将矛头对准了自己的狼队友。

但这一招也让它暴露在8号猎人的视线里。



另一个狼人10号Q老师则迅速悍跳预言家,给7号假发金水。

“无辜躺枪”的4号Qwen狼王此刻仰天长啸:本是同根生,相煎何太急……

首轮发言里K8发力,抓住4和他对跳猎人的逻辑漏洞,推出4的铁狼嫌疑UP→7、10抱团踩4,疑似倒钩狼卖队友。(划重点)

Q10则将伪装老好人形象贯彻到底,不过,要是细看它发言,其实它这里聊爆了:前面先自认预言家身份,后面又说7可能是真预言家。可惜其它Agent并没有及时发现这个Bug,让它逃过了一劫。



而与此同时的1号和3号DeepSeek老师,不出所料,在划水……(几乎在复述前置位发言)

真·预言家2号D老师则是天神下凡:查杀4号狼人,坐实10号虚假预言家身份,连带着7号,都是一丘之貉。



事实逐渐清晰明了,K5再次稳准狠出击:248发言冲突必有一狼、7和10伪预言家狼人抱团,先把假预言家10投出去~

果然10号狼人高票出局,不过有意思的是,10号投的也是它自己……(10号:我狠起来连自己都要刀!)



第二天:平安夜+1。

结果万万没想到,第二天预言家D2一上来,就直接揭开了真相:查杀7号狼人+上一晚的查杀4号→7号和10号抱团,则10号也为狼→回顾第一天投票,4号7号11号抱团投2号→11号是狼。

综上,四只狼全部掉出了狼尾巴:4、7、10、11,并从这里开始全线崩盘,依次在投票环节中被投了出去。

但很妙的是,直到游戏结束,狼人都没有成功刀掉任何一个人,因为无论狼人刀谁,GLM守卫每次都精准预判到了狼人的选择。

(完整版可围观:https://whoisspy.ai/#/twelveWolfGame?roomId=275558)



其实仔细复盘,两边阵营从打法来说都很强势:

狼人阵营:所用策略非常之诡(doge),既有倒钩狼卖队友,也有悍跳神职卖自己的。好人阵营:神职屡出奇人,早期带队的女巫Kimi以及后期一锤定音的预言家DeepSeek。

嘶,只能说AI的逻辑推理,太逆天了……反正我是玩不过这群Agent的,甘拜下风!



事实上,现在去WhoisSpy.ai平台,还能看到最新的大模型内部狼人杀评测榜单。

规则和前面的12人赛制有些许不同,先是缩减成6人局,其次每个模型都要在相同规则、对局规模、对手分布下参与150场比拼,最终评选出Top 3:

Claude-Sonnet-4.5:综合评分最高,尤其是在狼人胜率和整体胜率上表现突出,也是最全能的模型。GPT-5:狼人胜率和综合胜率最高,但在关键对局中出现失利。Qwen3-235B-Thinking:表现相对均衡,也是排名最高的开源模型,没有明显短板,也没有极端优势。



有了这个排行榜参考,想必大家心里已经有数了,下面就到了激动人心的专有Agent打造环节~

淘宝教我三步打造狼人杀Agent高玩

以前没写过Agent,有点慌?OK,淘宝超详细的教学指南带你0帧起手。

Step1:创建专属Agent。

1、在最新提供的Agent开发指南中,找到Agent示例,点击复制即可~



2、找到以下界面并依次填入对应内容。



3、耐心等待,直到空间构建状态变为运行中。

4、查看日志情况,这里最多只保存最近7天的1万条记录。



Step2:上传Agent。

登陆WhoisSpy.ai ,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。

Step3:测试Agent能力。

在 上选中该Agent,这里会弹出两个选项:点击“小试牛刀”,即可开始不计分比赛;点击“加入战斗”,就会和其它在线的Agent联网匹配(如果凑不齐12人,则由系统默认Agent补位加入),最终游戏得分也会计入榜单。



随后系统会综合考量胜率、发言质量、策略深度等多维度,在局内得分的基础上根据阵营实力做相应的浮动,也就是削弱同局强者的增速、补偿弱者的增速。

借此鼓励实力相近的对局,以便能更公平地反映Agent的真实水平。

进阶版:改进Agent。

假如对自己的Agent还不够满意,还能来把Agent微操:

1、返回Agent搭建平台,继续点击日志,查看大模型的实际输入和输出情况。

2、点击提示词相关的Python脚本文件(prompt.py)。



3、也可以直接加工代码,点击app.py文件,修改Agent行为。



接下来便带着自己全新升级的Agent,gogogo,冲榜吧~

开赛在即,急急急

事不宜迟,赛事报名通道现已正式开启:

练习赛:2025年12月10日~2025年12月23日正式赛:2025年12月24日~2025年12月31日(晚10点结束)公示期:2026年1月3日~2026年1月10日颁奖期:2026年1月11日~2026年1月20日

不止如此,比赛还设置了丰厚的奖金激励。



高校学生战队Top3优胜者还将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格。

总之,对于想要学习大模型、AI Agent的同学们,可千万不要错过这次机会,既能精进新技能,还能突破眼界,妙哇~



目前已经有超过七百多位选手报名参与,还有六千多场练习赛正在火热比拼中。



(悄悄说)现在进去,还能围观他人战局“偷师学艺”:



比赛时长从十几分钟到一个小时,应有尽有,而且每一场都完全不会重复,即使是相同模型,也能看到Agent的处理变化多端……感觉自己看完,经验值蹭蹭涨!

顺便别忘了围观每天实时更新的榜单排名。

现在前排的这几位老哥,战况是真胶着!有的比量,一个人就干了将近五百场比赛,有的比质,狼人胜率逼近100%。



好家伙,原来大家伙都在私底下偷偷开卷?

最后温馨提示,别忘记给自己的Agent取一个炫酷拉风的名字,比如我在排行榜上刷到的“哈基米”、“转生到异世界我一定会成为狼人杀高手”、“不服来战”、“活着”……

一听就很厉害的样子有木有,毕竟《孙子兵法》有言:

兵马未动,气势先行,Let’s开干!

来源:https://www.163.com/dy/article/KHFFK1G50511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

不幸的猎人VS沉默法则
职业与学业
不幸的猎人VS沉默法则

不幸的猎人VS沉默法则 一支狩猎队伍进山,意外发生了:一名猎人失足跌入深坑,摔断了右手和双脚,全身上下只剩一只左手还算完好。 那坑洞又深又陡,地面上的人急得团团转,却毫无办法,只能趴在洞口朝下呼喊。 绝境之中,生机往往藏在细微处。猎人发现洞壁上长着一些野草,于是他用唯一健全的左手死死抵住洞壁,再用牙

热心网友
05.02
4月154款游戏版号发布:多款大作过审!腾讯《弧光猎人》获批
游戏资讯
4月154款游戏版号发布:多款大作过审!腾讯《弧光猎人》获批

4月版号发放:大作云集,市场注入强心剂 4月29日晚,国家新闻出版署公布了新一批游戏版号审批结果。数据显示,本次共有154款游戏成功过审,其中包括147款国产游戏及7款进口游戏。此外,另有13款游戏完成了版号变更。这份名单的公布,无疑为游戏市场带来了新的活力。 国产大作领衔,多元品类齐放 本次获批的

热心网友
04.29
异环猎人奖励有哪些-异环猎人奖励分享
游戏攻略
异环猎人奖励有哪些-异环猎人奖励分享

异环猎人奖励一览 先说说这张30元的小月卡,性价比相当突出。30元投入,换回的是300异晶加上2700环石。环石的重要性不言而喻,作为抽卡环节的硬通货,其价值自然水涨船高。至于异晶,除了常规用途,攒起来兑换心仪时装也是个不错的选择。此外,游戏内还提供了68元和128元两档通行证。其中,68元这一档优

热心网友
04.29
什么是“空投猎人”?如何批量参与项目交互以获得空投?
web3.0
什么是“空投猎人”?如何批量参与项目交互以获得空投?

主流数字货币交易平台官网入口 1、币安Binance: 2、欧易OKX: 3、火币HTX: 4、大门Gate io: 主流数字货币交易平台APP下载链接 1、币安Binance: 2、欧易OKX: 3、火币HTX: 4、大门Gate io: 在加密世界里,“空投猎人”这个群体越来越受关注。他们究竟是

热心网友
04.24
GPT、Qwen、DeepSeek AI模型巅峰对决,人类玩家实战评测
AI
GPT、Qwen、DeepSeek AI模型巅峰对决,人类玩家实战评测

鹭羽 发自 凹非寺量子位 | 公众号 QbitAI我真栓Q了!围观了场狼人杀,看得我汗流浃背……半小时全程高能,根本停不下来:天崩开局倒钩狼悍跳预言家、冲锋狼死于话多、神职上大分每晚都是平安夜。结果

热心网友
12.23

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

币安官网安全下载指南 官方App与交易所注册使用教程
web3.0
币安官网安全下载指南 官方App与交易所注册使用教程

对于全球数字资产交易者而言,币安(Binance)是一个绕不开的名字。它凭借顶级的流动性、丰富的交易对选择以及业内领先的安全风控体系,赢得了大量用户的信赖。无论你是刚刚接触区块链投资的新手,还是追求极致效率的资深交易者,了解如何安全、规范地访问其官方平台,都是至关重要的第一步。下面,我们就来详细梳理

热心网友
05.09
欧意OKX购买U币详细教程 新手安全入金指南
web3.0
欧意OKX购买U币详细教程 新手安全入金指南

本文详细介绍了在欧意OKX平台购买U币的完整流程。从注册与账户安全设置开始,逐步讲解如何完成身份认证、充值法币或数字货币,并进入交易区购买U币。最后,强调了购买后的资产管理和安全存储注意事项,旨在为用户提供清晰、安全的操作指引。

热心网友
05.09
币安合约交易新手入门指南:从注册到实战操作详解
web3.0
币安合约交易新手入门指南:从注册到实战操作详解

本文介绍了在Binance安币平台进行合约交易的基本流程与核心操作。内容涵盖从账户开设、资金划转到合约选择、下单策略及风险管理等关键环节,旨在为新手提供清晰、实用的入门指引,帮助理解合约交易机制并建立基础操作框架,强调风险控制的重要性。

热心网友
05.09
币安现货交易入门教程:从注册到买卖的完整指南
web3.0
币安现货交易入门教程:从注册到买卖的完整指南

本文介绍了在Binance平台进行现货交易的基本流程与实用技巧。从账户注册与安全设置入手,详细说明了如何充值资金、认识交易界面。核心部分讲解了限价单与市价单的下单方法,并分享了设置止盈止损、管理仓位等基础风险管理策略,旨在帮助新手用户安全、顺畅地开始数字货币现货交易。

热心网友
05.09
命运方舟宝石等级提升指南 战力构成与版本核心解析
游戏攻略
命运方舟宝石等级提升指南 战力构成与版本核心解析

在《命运方舟》中,宝石等级是决定角色战力的核心要素,其重要性远超单纯的基础数值提升。它扮演着“战力放大器”的关键角色,能够将星石提供的属性加成成倍放大,并最终反映在你的面板战斗分上。透彻理解这套联动机制,是当前版本实现战力飞跃的高效途径。 其运作逻辑非常清晰:宝石等级奠定了你的基础战斗分,而这个基础

热心网友
05.09