游乐游手机版
首页/业界动态/文章详情

多款Agent工具实测:竟能代打游戏

时间:2026-05-31 15:27
AIAgent工具如Codex、TRAE、WorkBuddy等已能代打游戏:通过截图识别、自动编写脚本、上网找攻略完成操作。新交互界面隐去代码,显示执行日志;技能商店提供现成方案,Plan模式可提前规划任务,工具还能自动检查并修复BUG,甚至接入通讯软件实现自动化。

发个指令,给点权限,AI就能自己打开游戏库库玩了。

不懂咋玩?那就截图识别。没法操作?直接现搓脚本。操作一坨?甚至还能上网自己找攻略。

这就是现在跑在你电脑上的 AI Agent 能做到的事儿。

Codex

测完几个Agent工具 我发现他们能代打游戏了

市面上那几款 Agent 工具,像 Codex、TRAE、QoderWork、Workbuddy、Marvis 之类的,世超都挨个测了一遍。说实话,这玩意儿吹了这么久,大伙儿可能真不用再观望了。

从左向右依次为:第一行WorkBuddy,TRAE,Marvis;第二行Codex,QoderWork,悟空

测完几个Agent工具 我发现他们能代打游戏了

当然,一听名字里带 code,很多人第一反应是——这玩意儿肯定是为专业开发者准备的,门槛高、学起来费劲。其实不然,大厂们早就悄摸进化了一轮。

之前确实硬核了点,一个两个都照搬 VS Code 那种传统编程页面,适合开发,但并不适合和 AI 一起开发。

VS Code页面

测完几个Agent工具 我发现他们能代打游戏了

既然引入了 Agent,那就得重新设计——毕竟它是来干活的,而人是监督它的。所以大家很有默契地改了同一套交互逻辑:把具体的代码隐去,把 Agent 干活时的日志显示出来。简单说,在网页里你可以叫它老师,但在 Agent 工具里,你得化身老板,把活儿摊派明白。

Codex

测完几个Agent工具 我发现他们能代打游戏了

先看界面,也很简洁,主要分成三块:左边是你手底下掌管的项目,中间是常规的聊天窗口,右边则是等待验收的东西(一般等工作开始了才会有动静)。

测完几个Agent工具 我发现他们能代打游戏了

测完几个Agent工具 我发现他们能代打游戏了

测完几个Agent工具 我发现他们能代打游戏了

向左滑动,依次为:Codex,TRAE,WorkBuddy,Qoderwork

能 BB 就不动手,先去 Agent 工具的“应用商店”里逛逛,看看有啥合适的技能包(也就是 Skill),给 Agent 装上左膀右臂。琳琅满目,毕竟活儿的种类也就那么多,但凡有名有姓的基本都能扒拉到现成方案。数据分析、内容创作都不在话下,虽然不至于个个都好用,但参考参考终归能少走弯路。

Marvis

测完几个Agent工具 我发现他们能代打游戏了

做得比较有新意的是腾讯新出的 Marvis,把技能商店做成了类似小红书的信息流,可以边刷边收藏技能。而且技能在这些工具里是通用的,所以最近小红书自己也上线了 Skill 商店,用起来相当方便。当然,就算挑不过来也没关系,技能商店里还有帮咱选技能的技能——Codex 里叫 Skill Installer,WorkBuddy 里叫 Find Skills,算是将懒人式进行到底。

左:Codex;右:WorkBuddy

测完几个Agent工具 我发现他们能代打游戏了

至于自己造技能,倒不用急着动手。虽然可以通过 AI 一步步引导造出来,但先射箭后画靶一般都不好使。好的技能往往是先自己跑通几遍,再提炼总结,会更接地气,也更贴合自己的使用场景。

测完几个Agent工具 我发现他们能代打游戏了

测完几个Agent工具 我发现他们能代打游戏了

向左滑动,依次为:WorkBuddy,TRAE

选好技能就可以开始任务了。开始前需要选一下任务类型,默认的是普通款,但一般 Plan 模式更好使。这点挺重要——很多时候结果不理想不是 Agent 太笨,而是咱自己也不知道想要什么。Plan 就是在任务开始前先规划一下,明确任务的条条框框。有什么不妥直接改了,不用等到最后才发现方向跑偏。

Codex

测完几个Agent工具 我发现他们能代打游戏了

简单说一下要做什么,敲回车就能下发指令了。为了看具体流程,挑 3 个幸运儿展示一下——OpenAI 的 Codex,字节的 TRAE 和腾讯的 WorkBuddy,国内外的都拉出来溜溜。任务就原地 TP,让它们仨锐评它们仨。

这时候就能发现 Plan 的好处了。执行任务前,Codex 和 TRAE 都向咱二次确认了一下 WorkBuddy 具体是哪一个——因为国外有同名的应用容易混淆。

TRAE

测完几个Agent工具 我发现他们能代打游戏了

当然,由于都是默认模型,速度有快有慢。但就报告结果来看,确实各有“特点”。

WorkBuddy

测完几个Agent工具 我发现他们能代打游戏了

先说 WorkBuddy,给到一个老实人,上来也没问报告是啥形式,吭哧吭哧就是干。最后给的网页,效果还不错,排版和内容虽然 AI 味道重了点,但花里胡哨的符合咱锐评的主基调。调研后结论相当低调,把自己放在了靠后的位置,喷起自己毫不手软,实诚这一块到位了。

TRAE

测完几个Agent工具 我发现他们能代打游戏了

再来看 TRAE,给到一个人上人。活儿干得比较细致,不管是前期弹出式的表单规划,还是中间的调研,思路都很清晰,子 Agent 的调用也相当熟练。核心结论里,虽然把自己排到了老大,但考量了 6 个维度,总分是加权出来的,也算有理有据。

Codex

测完几个Agent工具 我发现他们能代打游戏了

最后的 Codex,基本就是目前这个领域的标杆了。报告里先来一手信源分析,就跟大伙儿拉开了点距离。下面的评价也能明显感觉到更深入一些,结合了最新产品文档的内容。模型好确实有优势,但考虑到国内用起来不方便,暂且给到一个半夯吧。

接下来,任务继续:让它们把各自的报告生成一份可视化的落地页。你可能会说这活儿在网页里也能做,而且还更快。

Gemini

测完几个Agent工具 我发现他们能代打游戏了

倒也没错,但不同的点在于——这里你不需要把代码再复制粘贴到本地了,而且最重要的,Agent 会自己调用工具去检查成品有没有 BUG。比如同样的任务,交给网页的 Gemini,这家伙甩给我几百行代码,粘到本地打开,发现一片空白……而这些 Agent 会在交付之前就避免这种情况。

WorkBuddy

测完几个Agent工具 我发现他们能代打游戏了

WorkBuddy 自己调用了 3 次预览,做了 2 次优化,才把网页交给我。

TRAE

测完几个Agent工具 我发现他们能代打游戏了

TRAE 更直接,直接打开了内置浏览器,通过不同角度的截图识别,打不开就刷新重试,直到确认渲染效果符合预期。Codex 也一样,权限不够,老是截不着网页,试了 N 次才确认好效果。所以落地页的效果倒是其次,重点是这套任务执行的逻辑,是跟网页端应付交差完全不同的打法。特别是截图反馈的工具调用,相当于给电脑安了个赛博义眼。

而像 Codex 这种更进一步,有 Computer Use 功能,可以全局截图反馈,然后操作。相当于你电脑上的软件,它都能打开。等模型能力更猛了,代打几局 LOL 也不是不可能。

Codex

测完几个Agent工具 我发现他们能代打游戏了

除了技能 Skill,这些 Agent 工具还能接入其他应用,比如 GitHub、邮箱、网盘等。更妙的是接入一些通讯软件,像微信、飞书——这也是龙虾当初火起来的一大原因。接入后就能双向链接,甭管是从 Agent 往飞书发文档,还是从微信命令 Agent 往工位上下载资料,都没问题。

WorkBuddy

测完几个Agent工具 我发现他们能代打游戏了

像是之前远程软件的升级版,加了个 Agent 当管家,帮你 24 小时盯着自己的电脑,随叫随到。或者有一些定时任务,也能找到“自动化”这种类型的入口,让它接管每天枯燥重复的流程性任务。

测完几个Agent工具 我发现他们能代打游戏了

测完几个Agent工具 我发现他们能代打游戏了

测完几个Agent工具 我发现他们能代打游戏了

测完几个Agent工具 我发现他们能代打游戏了

向左滑动,依次为:Codex,TRAE,WorkBuddy,Marvis

说了这么多,其实无论是什么手段,装什么插件,本质上都是在约束、控制着 Agent 朝咱预定的方向产出东西。有大佬精心优化的工作流,有厂商调教好的记忆系统,也有方便实用的技能包。用专业点的话说,这些都是“Harness”,原意是给马套上马具,放这儿也是非常贴切了。

测完几个Agent工具 我发现他们能代打游戏了

无论马具下面的模型是哪一匹,这些 Agent 工具都得随套随用。就体感而言,Codex 是比较夯的——模型给力,额度还偶尔重置,虽然需要一点手段,但比起 Claude 要简单得多,适合想体验顶尖性能的折腾党。要是不想麻烦,直接用国内大厂的方案也行,嫌默认模型笨,就去买点 DeepSeek 的 API 接上,妥妥的性价比平替。至于平替里选哪一个,取决于你的使用场景:微信和 WorkBuddy 搭伙方便,飞书和 TRAE 集成更深,钉钉那边就是 Qoder 以及咱没测到的悟空了,不过逻辑都一样。

测完几个Agent工具 我发现他们能代打游戏了

但话说回来,Agent 工具也有缺点——上的手段越多,花费的模型 Token 也越多,动不动几十分钟的长线任务,账单会变得贼拉长。所以有什么便宜管饱的模型套餐,大伙儿就各显神通吧……要是不太繁琐的活儿,这些 Agent 工具也有免费的额度,白嫖一下尝尝咸淡总是不亏的。

来源:https://m.mydrivers.com/newsview/1126175.html
上一篇小鹏MONA系列首款SUV L03罗兰紫实车曝光2026年发布 下一篇小鹏MONA首款SUV L03实车曝光 2026年发布
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
007初露锋芒开场指令引服从自主叙事分寸热议
业界动态 · 2026-05-31

007初露锋芒开场指令引服从自主叙事分寸热议

《007:初露锋芒》由IO Interactive精心打造,目前已正式上市。游戏上线后,开场约十三分钟的剧情片段迅速在各大社交平台掀起热议——其中关于“服从指令”与“自主决断”的叙事分寸问题,成为玩家关注的焦点。具体而言,在这一开场片段中,年轻的詹姆斯·邦德通过无线电接收一位女性指挥官的指令。当邦德

星途汽车多款海报被指抄袭极氪X9
业界动态 · 2026-05-31

星途汽车多款海报被指抄袭极氪X9

5月28日,一位博主公开喊话星途汽车,迅速引爆行业关注。该博主直接晒出多组对比图,指控奇瑞旗下高端品牌星途汽车的新车宣传海报涉嫌抄袭其原创作品——该作品原是为极氪9X设计的。仔细比对可见,前后场景、光影细节高度一致,几乎仅将车标替换,整套素材模板几乎原封不动。这一行为在业内看来确实难以容忍。 该博主

博越L搭载AR-HUD抬头显示提升行车安全与驾驶便利
业界动态 · 2026-05-31

博越L搭载AR-HUD抬头显示提升行车安全与驾驶便利

博越L的AR-HUD抬头显示系统将车速、导航等信息投射至前挡风玻璃,支持亮度、高度、角度调节,提供多车道、AR增强现实、极简三种显示模式,并具备雪地模式和语音唤醒功能,系统自动记忆偏好设置,提升行车安全与便利。

小鹏MONA系列首款SUV L03罗兰紫色实车曝光
业界动态 · 2026-05-31

小鹏MONA系列首款SUV L03罗兰紫色实车曝光

小鹏MONA系列首款SUVL03罗兰紫色实车曝光,采用溜背造型,车身长度在4650至4672毫米之间,宽度1920毫米,高度1600毫米,轴距2850毫米,电动机峰值功率183千瓦,配备磷酸铁锂电池组,可选装多种外观件如不同样式轮毂等,预计2026年正式发布。

乐道沈斐解读焕新款L60六大升级智驾进入第一梯队
业界动态 · 2026-05-31

乐道沈斐解读焕新款L60六大升级智驾进入第一梯队

乐道L60焕新版实现106项升级,智驾搭载神玑NX9031芯片与蔚来世界模型进入第一梯队;获中保研纯电全优及双五星安全认证;综合能耗11 9kWh 100km,续航740km,共享蔚来8000+座换电站;后排间距967mm,配17 3英寸屏、冷暖箱等舒适配置。