字节推通用游戏AI！5000亿参数训练，鼠标键盘超越GPT-5

首页

热心网友

转载

2025-10-31

Game-TARS通过构建统一且可扩展的键鼠操作训练框架，能够在各类操作系统、网页环境及模拟器中开展大规模预训练。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

现在，真正能像人类一样用鼠标和键盘玩游戏的智能体终于来了！

这个智能体不仅能在《我的世界》里与普通玩家一较高下。

它还能轻松驾驭《神庙逃亡》《星露谷物语》等热门游戏，甚至能在从未见过的3D网页游戏中实现操作策略的无缝迁移。

这些令人惊艳的表现，都出自字节跳动Seed团队研发的通用型游戏智能体——Game-TARS之手。

该框架基于标准化的键盘-鼠标动作空间设计，支持在Windows、Linux等不同平台进行分布式训练。

基于超过5000亿标注量的多模态训练数据，结合稀疏推理与衰减持续损失机制，显著提升了智能体的扩展能力和泛化性能。

在FPS射击、开放世界探索、网页游戏等各类任务中，其综合表现已超越GPT-5、Gemini-2.5-Pro及Claude-4-Sonnet等顶尖模型。

那么，这一切是如何实现的呢？

真正像人一样使用键盘鼠标打游戏

Game-TARS的核心创新在于，让智能体不再依赖“调用函数玩游戏”的传统模式，而是像真人玩家一样通过实际的键盘敲击和鼠标移动来完成游戏操作。

这意味着，它不仅仅是机械地执行指令，而是真正模拟人类操作方式来完成游戏中的每一个动作。

相比之下，传统智能体通常依赖为特定环境定制的动作集：

在MCP或代码层面，它们可以直接调用Search(query)完成搜索，无需打开界面或点击按钮。在GUI层面则执行封装好的系统动作，如“双击”或“按下热键”。

这些方式虽然高效，却缺乏通用性。一旦更换操作系统或应用环境，智能体就会束手无策。

为解决这个问题，Game-TARS专注于最底层的人类基础动作：

mouseMove(dx, dy)：包含x轴和y轴的鼠标相对移动。mouseClick(buttons)：支持左键、右键及中键点击操作。keyPress(xkeys)：涵盖单个按键和组合键的键盘输入。

这种设计使智能体的动作指令集与任何特定应用或操作系统解耦，实现了与人类用户物理交互方式的直接对齐——

即人类自然交互模式。

这样一来，Game-TARS就定义了一个可扩展、统一的操作空间，让智能体告别高级指令，直接动手“玩”游戏，极大地提升了可扩展性和泛化能力。

科学严谨的训练流程

与传统的游戏机器人或模块化人工智能不同，Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型中。

智能体无需针对每款游戏编写特定代码或规则，就能自主学习操作，并在各种游戏中完成任务。

为实现这一目标，Game-TARS将智能体构建为一个自回归的参数化策略，并利用统一的键鼠动作空间进行训练，包括持续预训练和后训练两个阶段。

在预训练阶段，团队采用的ReAct范式结合稀疏推理机制——仅在关键决策点进行推理和行动，以模拟人类认知模式。

具体做法包括：

离线的思维链与在线的“边做边说”：标注者在执行任务时，通过音频实时表达思考，生成原生、即时的ReAct序列。多模态同步采集：系统并行录制屏幕帧、鼠标键盘输入及音频，然后通过ASR转文字，再用大语言模型进行降噪和逻辑增强。视觉锚点因果对齐：用屏幕鼠标光标作为锚点，精确对齐每个动作信号到其执行帧，还原因果关系链。轨迹构建与优化：将两帧间的所有键鼠操作合并为动作事件，无操作标记为no-op；推理时时间戳重新定位到语义相关的动作，生成高度同步、因果一致的训练序列。

此外，为解决“行为惯性”问题，Game-TARS引入了指数衰减权重，对连续重复动作按指数降低权重，确保新动作获得足够关注，让模型更专注于高熵动作转变，学习出更稳健、泛化能力更强的策略。

在超过2万小时、约5000亿token的游戏数据上完成大规模预训练后，研究进入后训练阶段，进一步强化智能体在特定任务中的执行能力和交互智能，重点提升三大核心能力：

指令遵循：随机替换按键绑定（如将W键换成X代表“向前”），迫使模型依赖系统提示理解操作语义。同时让模型基于当前帧预测中间动作，加深对动作-状态因果关系的理解。稀疏思维能力：定位关键决策点，仅在高熵步距增强推理；通过拒绝微调强化高效稀疏思维，让智能体学会在关键时刻深思熟虑。长期记忆：引入双层记忆机制——短期记忆保存最新图像，长期记忆只保留精炼的稀疏思维文本。

此外，为了将能力扩展到游戏之外，后训练还引入了跨领域轨迹数据，包括代码生成、GUI自动化和科研任务，帮助Game-TARS从游戏玩家成长为多功能计算机用户。