首个游戏Agent实战：LLM驱动实时决策与思维链

首页

AI资讯

热心网友

转载

2026-01-20

鹭羽发自凹非寺
量子位 | 公众号 QbitAI

不讲武德！游戏圈这回真是被AI抄家了。（doge）

这两天，一个ID名为「快递员」的神秘游戏账号引起全网围观。

51小时高强度排位，胜率一度逼近93%，直接碾压式登顶韩服LOL。

相关词条更是直冲热搜第一，网友们纷纷吃瓜：这逆天操作，莫不是老马的Grok在提前备战S16？！

（咳咳）玩梗归玩梗，虽然关于其AI身份尚无定论，但这场全网围观足以证明：AI+游戏已经吊足了所有人的胃口。

事实上，不止马斯克，全球瞄准这一赛道的游戏厂商还真不少。

在国内就有这样一支先遣队，早已将AI Agent大规模商业化部署，落地在多种类型的游戏产品中。

或许你早已在多个爆款游戏中领略过他们的手笔，他们就是超参数科技。

而最近，超参数科技又刚刚推出了一款全新的游戏智能体——COTA。

据最新描述，这是一款真正具备通用游戏潜力的Agent产品，从名字就能看出，它强调认知（Cognition）、执行（Operation）、策略（Tactics）和辅助（Assistance）：

不仅操作堪比职业选手、决策比肩教练级，推理链路还全程清晰可见。

并且这一切，完全由大模型原生驱动。

效果be like：

视频链接：https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg

（无奖竞猜：这是人类还是AI操作的？）

Anyway话不多说，先开一局游戏玩玩。

职业级水准的实机性能表现

目前COTA可以在最新自研的FPS（第一人称射击）游戏Demo中进行体验。

之所以选择FPS作为Agent落地的第一站，是因为该类型游戏容错率极低，零点几秒的延迟或一个错误的决策就会导致当前角色“死亡”。

此外，长期处于高频对抗博弈，要求AI必须在每一帧内不断识别敌人、判断地形、规划路径并进行射击反馈。

这里有三种游戏类型选择：

单人模式：和4个AI一起组队对抗5个AI；观战模式：AI 5V5对抗；多人模式：自定义房间，可自由选择单人/观战模式。

游戏分为进攻方和防守方两队，每队5人，一旦进攻方歼灭敌军或者成功引爆炸弹，则算进攻方胜利，反之若防守方歼灭对方或拆除炸弹，则算守方获胜。

都说知己知彼百战不殆，所以我们先进观战模式，看看AI都是怎么玩的～

点击鼠标左右键可进行视角切换，包括双方所有角色的第一视角和自由视角。

自由视角下，点击O键可同时查看双方队伍的简易思维链（Chain of Thought，以下简称CoT），再点击一次即可开启详细CoT过程。

角色视角下，可查看当前角色所在队伍的Commander下发给该角色的团队战略以及个人任务，同样双击O键查看详细CoT内容。

每个详细CoT推导过程的右下角都设置有暂停和播放按键。

以守方Apple为视角，团队Commander首先根据A、B两个据点的不同地势情况，合理分配人员。

A点三人控夹角，B点两人守高台，保持视野联动。

比赛正式开始，Apple听从Commander的单人指令，前往B点架枪防守。

通过查看Apple的CoT可知，该Agent先对指令内容进行拆解，结合当前坐标和目标点坐标，以及附近地图环境，规划出合理的转移路径。

移动时，输出的决策也相当全面，始终强调动作的连续性与拟人性，既模拟真实玩家的操作过程，又可以避免暴露自己的位置。

视频链接：https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg

移动过程中，Agent也会时感知当前页面，接收并向队伍反馈实时信息。

视频链接：https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg

除了推理可视化外，在急停拉枪、掩体博弈、投掷物封烟、下包拆包等一系列复杂动作上，Agent也表现得相当流畅自然。

视频链接：https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg

在团队配合时，Agent也会有意识配合完成集火包抄，掩护队友完成单点突破。

视频链接：https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg

而在单人模式中，我们的感受是：AI好强，全程带我飞。

视频链接：https://mp.weixin.qq.com/s/uxlaijDSQQQmAlfEXjYgxg

作为攻方，几乎可以无脑跟AI指令，就算技术很菜，队友也会在前面开路，直接躺赢。

和AI打一盘下来，感觉自信心突然爆棚，胜率100%不是梦。（doge）

而且完全感觉不到是在和AI匹配组队，指令清晰易懂，反馈及时，也几乎不存在打人机局时的机械感。

总的来说，无论是哪种模式下，Agent的表现都比肩人类顶尖玩家，作为队员，它能把每一个指令完美消化，配合度满分；而作为队长，它又可以实时制定最详细的战术策略。

赢下比赛也并非依靠超越人类的反应速度，而是通过策略运营，借助类似人类选手的意识获胜。

充分向我们展示了一个高智商+高透明度的新一代游戏Agent形象，可以说是一枚非常优秀的游戏搭子～

完全由LLM驱动，模拟人类快慢思考过程

但事实上，要想同时完成实时、对抗、可解释性三个维度，在过去难度是极高的。

传统FPS的AI Bot通常只能满足实时性和操作精度，虽然可以做到快速反应和高命中率，但在战术博弈和高层决策上对抗能力弱，更依赖预设脚本。

而AlphaGo则受限于强化学习范式，虽然在对抗上表现优异，但却是一个思维黑盒，玩家与开发者无法知道AI决策背后的原因，因此在交互体验上往往摆脱不了一种“赛博上帝”的冰冷感。

那么COTA是如何打破这个“不可能三角”的呢？

首先，在模型架构上，其没有用业界主流的小模型强化学习，转而将大模型作为核心引擎。

这显然是超参数科技一次极具前瞻性且大胆的选择。

众所周知，现有大模型普遍依赖自回归生成机制，推理能力强的同时也不可避免地带来了实时响应问题，尤其是在要求高频、低容错的复杂游戏场景中相当受限。

而COTA在此基础上，通过精准选型和对模型架构的进一步创新，从而找到了平衡点。

为了避免参数冗余，COTA采用Qwen3-VL-8B-Thinking作为基座模型，这是一个兼顾性能与效率的“甜点级”选择。

相比更小参数量级的模型，8B仍然可支撑足够的逻辑链推理，以及理解复杂的游戏战术；体积轻巧也能更好地满足游戏场景中每秒多次的决策刷新，解决游戏Agent在实时性上的物理瓶颈。

其次，COTA创新性构建了一套“双系统分层架构”，将原先强耦合的AI决策链，拆分为快系统+慢系统两条协同链路。

简单来说，就是模拟人类大脑，快系统负责低延迟动作执行，慢系统负责深度分析。

对应过来，就是指挥官（Commander）+行动专员（Operator）：

上层：指挥官主战略。

该模型的定位是整个系统的战术中枢，其核心特质在于保留有完整的逻辑链条。

并非随机指令生成，而是基于当前局势进行宏观的因果推演，比如通过已知敌方三人在A点露头，可得出B点防守薄弱的结论。

它不参与具体操作，相反专注于从感知到决策的高阶能力，涵盖地图分析、敌方意图判断以及战略方针制定等复杂任务。

对Commander而言，唯一的目标就是赢下全局。

下层：行动专员重执行。

和指挥官相比，该模型更偏落地执行，这是一个进行了极致蒸馏、专注指令理解的非思考VLA模型，负责将抽象的战略转化为毫秒级的物理操作。

输入时会同时接收两种信息流，其一是来自上层指挥官的战略，其二是模型结合个人视野（当前屏幕看到的敌人）和团队视野（队友共享的信息），综合判断当前的障碍物、掩体和威胁程度。

然后进行语义拆解，将模糊的指令转化为精确的物理坐标和按键，从而在每个角色上实现具体的移动、瞄准、射击等微操作。

在训练过程中，COTA同时建立起一条从“能用→强化→拟人”的训练管线：

1、SFT阶段：基于CoT的冷启动。

传统的模仿学习只会学习基础动作，而利用包含CoT的高质量数据进行SFT监督微调，可以让AI初步具备人类思考的逻辑框架。

其中在数据构建上，采用了混合式数据策略：以高质量人工数据作为锚点，再结合模型自动生成数据，来规模化满足训练所需的数据量和多样性。

2、GRPO阶段：大规模自我博弈。

群相对策略优化主要解决的是决策鲁棒性问题，通过AI自我对抗，探索人类玩家从未发现的战术死角，可以极大地提高模型在极端压力环境下的生存胜率。

3、DPO阶段：人类偏好对齐。

这一步将会与人类高端玩家数据对齐，以减少AI的机械感，例如不合常理的瞬移视角，同时让指挥官输出的战术意图更符合人类语言逻辑。

最终体现在COTA上，就是将有限的算力花在刀刃上：高成本、强推理能力集中在不要求即时响应的战略决策阶段，而实时执行交给经过蒸馏与压缩等技术的轻量模型。

从而在保持智能水平的同时，将系统整体响应时间压缩到百毫秒级（最快可缩减至100ms），以满足多类游戏场景需求。

这就意味着COTA已经跨越了算法和应用之间的鸿沟，在实战环境下依旧能够保持高水平性能，具备商业可行性。

非一家之言，而是通用游戏智能体的开端

由此可见，COTA并非华而不实的demo，而是能真正落地的大模型游戏AI产品。

它标志着，大模型+游戏终于从实验室走进了现实。

这也反映一种行业趋势——当AI Agent的基础能力与技术趋于成熟，游戏AI从业者们已经迈入到进一步突破Game AI能力边界的阶段。

而COTA正是游戏AI新范式探索道路上的一份优秀答卷。

它在毫秒必争的竞技环境中，攻克了高强度对抗下的决策精度和响应难题，以实战成果有力地证明了：以大模型为核心驱动的技术路线在游戏AI领域不仅走得通，而且走得远。

想象一下，当大模型的深层创作力与实时游戏场景彻底融合，游戏会变成什么样？

在MMORPG（大型多人在线角色扮演游戏）中，NPC不再是预设文本的复述，而是具备严密逻辑的数字生命。

能够迅速响应玩家需求，输出高质量互动，后续或许还能够基于玩家的行为建立长期记忆。

这些充满温度的全新交互将全面提升用户游戏体验。

而在MOBA（多人在线战斗竞技游戏）中，AI可以进化成真正的战术大师。

它与玩家的战斗不依靠0失误的机械操作取胜，而是与玩家一样，通过逻辑严谨的战略、战术完成游戏，让玩家在与AI的每一局对战中都能体验到与真人玩家组队无异的游戏体验。

在SLG（策略模拟类游戏）中，解决了响应难题与思维黑盒问题的大模型Game AI可以彻底重构SLG的策略深度与沉浸感。

它让AI与玩家的博弈彻底拟人化，战斗精细化，同时开发也可以高效化。

简而言之可以让SLG玩家的对手更“聪明”，队友更“懂行”，战斗更“真实”。

总之，一切皆有可能。

其本质在于，游戏AI在游戏世界中对人机关系的重构。

与常见的指令死板、工具属性明显的AI Bot不同，COTA更像是具备灵魂的游戏搭子，玩家可以通过思维链理解AI的想法，认可ta的行为，最终形成趋近于真实玩家间的协作关系。

这种高拟人化的互动不仅停留在情绪共鸣层面，还可以通过持续、可预期的反馈机制逐步建立起玩家对AI的信任连接。

当玩家开始相信系统真正理解自己的意图时，人机交互便不再是一次性的功能使用，而是成为贯穿游戏全过程的真实体验，从而全面革新玩家的游戏参与方式。

从游戏运营这样的商业角度来讲，也可以有效实现游戏长期留存率提升、拉动转化的商业目标，COTA这类游戏Agent将为游戏产品在存量竞争时代提供难以替代的商业竞争优势，给予游戏厂商积极正向的数据回馈。

正是基于上述对玩家价值的深刻理解，超参数科技推出了COTA这个产品，为开发者提供一套面向未来、具备极高通用性潜力的游戏智能体框架。

它打破了技术壁垒，可以让开发者无需针对每个不同类型的游戏产品打造Game AI，利用这套框架即可将最前沿的大模型Agent技术高效应用到自己的多类产品中，为玩家提供优秀的游戏AI服务。

可以说，超参数科技正在与游戏行业共同完成一场从代码预设向智慧涌现的范式转变。

而在游戏之外，COTA同样潜力无穷。

一直以来，游戏场景都是通用智能体的练兵场。无论是复杂环境下的决策博弈，还是对物理世界规律的模拟，游戏场景都是最接近现实复杂度的世界模型。

而COTA这类具备通用潜力的游戏Agent，不仅成本低、可复现，而且风险可控，是通往AGI的道路验证中，最理想的试验沙盒。

更具体地看，COTA所验证的“双系统分层架构”可以为很多现实世界问题，如具身智能等场景提供极具参考价值的解题思路。

在现实世界里，也会经常面临“高层语义理解”与“底层运动控制”的协同难题。

COTA则展示了如何让“LLM大脑”（Commander）处理复杂的任务拆解与环境推理，以及同时让“LLM小脑”（Operator）在毫秒级内完成精准的运动执行。

这种能力可以无缝迁移至大量的现实世界问题上。当AI学会在虚拟世界中通过视听感知环境、与队友配合并执行工作时，它距离在物理世界中像人类一样行走、工作与协同也就不远了。

这正是“从仿真到现实”技术路线的核心价值所在。

它可以作为虚拟世界与真实物理世界的枢纽，带动通用人工智能的加速演进，一旦AGI取得突破，它也将反哺游戏行业，重新定义下一代游戏Agent的形态。

所以我们有理由期待，未来的游戏AI领域能够孕育出更多如COTA般令人惊喜的技术突破，通过持续的范式创新，为全球用户开启一个充满智慧与生命力的新纪元。

试玩链接：https://www.chaocanshu.cn/product/cota_apply

来源:https://www.163.com/dy/article/KJNRQEMU0511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：OpenAI首席财务官：今年专注于AI实际应用与商业部署下一篇：EmbodiChain开源：100%生成式数据驱动，自动训练具身智能模型