多款Agent工具实测：竟能代打游戏

时间：2026-05-31 15:27

AIAgent工具如Codex、TRAE、WorkBuddy等已能代打游戏：通过截图识别、自动编写脚本、上网找攻略完成操作。新交互界面隐去代码，显示执行日志；技能商店提供现成方案，Plan模式可提前规划任务，工具还能自动检查并修复BUG，甚至接入通讯软件实现自动化。

发个指令，给点权限，AI就能自己打开游戏库库玩了。

不懂咋玩？那就截图识别。没法操作？直接现搓脚本。操作一坨？甚至还能上网自己找攻略。

这就是现在跑在你电脑上的 AI Agent 能做到的事儿。

Codex

测完几个Agent工具我发现他们能代打游戏了

市面上那几款 Agent 工具，像 Codex、TRAE、QoderWork、Workbuddy、Marvis 之类的，世超都挨个测了一遍。说实话，这玩意儿吹了这么久，大伙儿可能真不用再观望了。

从左向右依次为：第一行WorkBuddy，TRAE，Marvis；第二行Codex，QoderWork，悟空

测完几个Agent工具我发现他们能代打游戏了

当然，一听名字里带 code，很多人第一反应是——这玩意儿肯定是为专业开发者准备的，门槛高、学起来费劲。其实不然，大厂们早就悄摸进化了一轮。

之前确实硬核了点，一个两个都照搬 VS Code 那种传统编程页面，适合开发，但并不适合和 AI 一起开发。

VS Code页面

测完几个Agent工具我发现他们能代打游戏了

既然引入了 Agent，那就得重新设计——毕竟它是来干活的，而人是监督它的。所以大家很有默契地改了同一套交互逻辑：把具体的代码隐去，把 Agent 干活时的日志显示出来。简单说，在网页里你可以叫它老师，但在 Agent 工具里，你得化身老板，把活儿摊派明白。

Codex

测完几个Agent工具我发现他们能代打游戏了

先看界面，也很简洁，主要分成三块：左边是你手底下掌管的项目，中间是常规的聊天窗口，右边则是等待验收的东西（一般等工作开始了才会有动静）。

测完几个Agent工具我发现他们能代打游戏了

向左滑动，依次为：Codex，TRAE，WorkBuddy，Qoderwork

能 BB 就不动手，先去 Agent 工具的“应用商店”里逛逛，看看有啥合适的技能包（也就是 Skill），给 Agent 装上左膀右臂。琳琅满目，毕竟活儿的种类也就那么多，但凡有名有姓的基本都能扒拉到现成方案。数据分析、内容创作都不在话下，虽然不至于个个都好用，但参考参考终归能少走弯路。

Marvis

测完几个Agent工具我发现他们能代打游戏了

做得比较有新意的是腾讯新出的 Marvis，把技能商店做成了类似小红书的信息流，可以边刷边收藏技能。而且技能在这些工具里是通用的，所以最近小红书自己也上线了 Skill 商店，用起来相当方便。当然，就算挑不过来也没关系，技能商店里还有帮咱选技能的技能——Codex 里叫 Skill Installer，WorkBuddy 里叫 Find Skills，算是将懒人式进行到底。

左：Codex；右：WorkBuddy

测完几个Agent工具我发现他们能代打游戏了

至于自己造技能，倒不用急着动手。虽然可以通过 AI 一步步引导造出来，但先射箭后画靶一般都不好使。好的技能往往是先自己跑通几遍，再提炼总结，会更接地气，也更贴合自己的使用场景。

测完几个Agent工具我发现他们能代打游戏了

向左滑动，依次为：WorkBuddy，TRAE

选好技能就可以开始任务了。开始前需要选一下任务类型，默认的是普通款，但一般 Plan 模式更好使。这点挺重要——很多时候结果不理想不是 Agent 太笨，而是咱自己也不知道想要什么。Plan 就是在任务开始前先规划一下，明确任务的条条框框。有什么不妥直接改了，不用等到最后才发现方向跑偏。

Codex

测完几个Agent工具我发现他们能代打游戏了

简单说一下要做什么，敲回车就能下发指令了。为了看具体流程，挑 3 个幸运儿展示一下——OpenAI 的 Codex，字节的 TRAE 和腾讯的 WorkBuddy，国内外的都拉出来溜溜。任务就原地 TP，让它们仨锐评它们仨。

这时候就能发现 Plan 的好处了。执行任务前，Codex 和 TRAE 都向咱二次确认了一下 WorkBuddy 具体是哪一个——因为国外有同名的应用容易混淆。

TRAE

测完几个Agent工具我发现他们能代打游戏了

当然，由于都是默认模型，速度有快有慢。但就报告结果来看，确实各有“特点”。

WorkBuddy

测完几个Agent工具我发现他们能代打游戏了

先说 WorkBuddy，给到一个老实人，上来也没问报告是啥形式，吭哧吭哧就是干。最后给的网页，效果还不错，排版和内容虽然 AI 味道重了点，但花里胡哨的符合咱锐评的主基调。调研后结论相当低调，把自己放在了靠后的位置，喷起自己毫不手软，实诚这一块到位了。

TRAE

测完几个Agent工具我发现他们能代打游戏了

再来看 TRAE，给到一个人上人。活儿干得比较细致，不管是前期弹出式的表单规划，还是中间的调研，思路都很清晰，子 Agent 的调用也相当熟练。核心结论里，虽然把自己排到了老大，但考量了 6 个维度，总分是加权出来的，也算有理有据。

Codex

测完几个Agent工具我发现他们能代打游戏了

最后的 Codex，基本就是目前这个领域的标杆了。报告里先来一手信源分析，就跟大伙儿拉开了点距离。下面的评价也能明显感觉到更深入一些，结合了最新产品文档的内容。模型好确实有优势，但考虑到国内用起来不方便，暂且给到一个半夯吧。

接下来，任务继续：让它们把各自的报告生成一份可视化的落地页。你可能会说这活儿在网页里也能做，而且还更快。

Gemini

测完几个Agent工具我发现他们能代打游戏了

倒也没错，但不同的点在于——这里你不需要把代码再复制粘贴到本地了，而且最重要的，Agent 会自己调用工具去检查成品有没有 BUG。比如同样的任务，交给网页的 Gemini，这家伙甩给我几百行代码，粘到本地打开，发现一片空白……而这些 Agent 会在交付之前就避免这种情况。

WorkBuddy

测完几个Agent工具我发现他们能代打游戏了

WorkBuddy 自己调用了 3 次预览，做了 2 次优化，才把网页交给我。

TRAE

测完几个Agent工具我发现他们能代打游戏了

TRAE 更直接，直接打开了内置浏览器，通过不同角度的截图识别，打不开就刷新重试，直到确认渲染效果符合预期。Codex 也一样，权限不够，老是截不着网页，试了 N 次才确认好效果。所以落地页的效果倒是其次，重点是这套任务执行的逻辑，是跟网页端应付交差完全不同的打法。特别是截图反馈的工具调用，相当于给电脑安了个赛博义眼。

而像 Codex 这种更进一步，有 Computer Use 功能，可以全局截图反馈，然后操作。相当于你电脑上的软件，它都能打开。等模型能力更猛了，代打几局 LOL 也不是不可能。

Codex

测完几个Agent工具我发现他们能代打游戏了

除了技能 Skill，这些 Agent 工具还能接入其他应用，比如 GitHub、邮箱、网盘等。更妙的是接入一些通讯软件，像微信、飞书——这也是龙虾当初火起来的一大原因。接入后就能双向链接，甭管是从 Agent 往飞书发文档，还是从微信命令 Agent 往工位上下载资料，都没问题。

WorkBuddy

测完几个Agent工具我发现他们能代打游戏了

像是之前远程软件的升级版，加了个 Agent 当管家，帮你 24 小时盯着自己的电脑，随叫随到。或者有一些定时任务，也能找到“自动化”这种类型的入口，让它接管每天枯燥重复的流程性任务。

测完几个Agent工具我发现他们能代打游戏了

向左滑动，依次为：Codex，TRAE，WorkBuddy，Marvis

说了这么多，其实无论是什么手段，装什么插件，本质上都是在约束、控制着 Agent 朝咱预定的方向产出东西。有大佬精心优化的工作流，有厂商调教好的记忆系统，也有方便实用的技能包。用专业点的话说，这些都是“Harness”，原意是给马套上马具，放这儿也是非常贴切了。

测完几个Agent工具我发现他们能代打游戏了

无论马具下面的模型是哪一匹，这些 Agent 工具都得随套随用。就体感而言，Codex 是比较夯的——模型给力，额度还偶尔重置，虽然需要一点手段，但比起 Claude 要简单得多，适合想体验顶尖性能的折腾党。要是不想麻烦，直接用国内大厂的方案也行，嫌默认模型笨，就去买点 DeepSeek 的 API 接上，妥妥的性价比平替。至于平替里选哪一个，取决于你的使用场景：微信和 WorkBuddy 搭伙方便，飞书和 TRAE 集成更深，钉钉那边就是 Qoder 以及咱没测到的悟空了，不过逻辑都一样。

测完几个Agent工具我发现他们能代打游戏了