字节推通用游戏AI!5000亿参数训练,鼠标键盘超越GPT-5
Game-TARS通过构建统一且可扩展的键鼠操作训练框架,能够在各类操作系统、网页环境及模拟器中开展大规模预训练。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
现在,真正能像人类一样用鼠标和键盘玩游戏的智能体终于来了!
这个智能体不仅能在《我的世界》里与普通玩家一较高下。

它还能轻松驾驭《神庙逃亡》《星露谷物语》等热门游戏,甚至能在从未见过的3D网页游戏中实现操作策略的无缝迁移。

这些令人惊艳的表现,都出自字节跳动Seed团队研发的通用型游戏智能体——Game-TARS之手。
该框架基于标准化的键盘-鼠标动作空间设计,支持在Windows、Linux等不同平台进行分布式训练。
基于超过5000亿标注量的多模态训练数据,结合稀疏推理与衰减持续损失机制,显著提升了智能体的扩展能力和泛化性能。
在FPS射击、开放世界探索、网页游戏等各类任务中,其综合表现已超越GPT-5、Gemini-2.5-Pro及Claude-4-Sonnet等顶尖模型。

那么,这一切是如何实现的呢?
真正像人一样使用键盘鼠标打游戏
Game-TARS的核心创新在于,让智能体不再依赖“调用函数玩游戏”的传统模式,而是像真人玩家一样通过实际的键盘敲击和鼠标移动来完成游戏操作。

这意味着,它不仅仅是机械地执行指令,而是真正模拟人类操作方式来完成游戏中的每一个动作。
相比之下,传统智能体通常依赖为特定环境定制的动作集:
在MCP或代码层面,它们可以直接调用Search(query)完成搜索,无需打开界面或点击按钮。在GUI层面则执行封装好的系统动作,如“双击”或“按下热键”。
这些方式虽然高效,却缺乏通用性。一旦更换操作系统或应用环境,智能体就会束手无策。
为解决这个问题,Game-TARS专注于最底层的人类基础动作:
mouseMove(dx, dy):包含x轴和y轴的鼠标相对移动。mouseClick(buttons):支持左键、右键及中键点击操作。keyPress(xkeys):涵盖单个按键和组合键的键盘输入。
这种设计使智能体的动作指令集与任何特定应用或操作系统解耦,实现了与人类用户物理交互方式的直接对齐——
即人类自然交互模式。
这样一来,Game-TARS就定义了一个可扩展、统一的操作空间,让智能体告别高级指令,直接动手“玩”游戏,极大地提升了可扩展性和泛化能力。

科学严谨的训练流程
与传统的游戏机器人或模块化人工智能不同,Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型中。
智能体无需针对每款游戏编写特定代码或规则,就能自主学习操作,并在各种游戏中完成任务。
为实现这一目标,Game-TARS将智能体构建为一个自回归的参数化策略,并利用统一的键鼠动作空间进行训练,包括持续预训练和后训练两个阶段。

在预训练阶段,团队采用的ReAct范式结合稀疏推理机制——仅在关键决策点进行推理和行动,以模拟人类认知模式。
具体做法包括:
离线的思维链与在线的“边做边说”:标注者在执行任务时,通过音频实时表达思考,生成原生、即时的ReAct序列。多模态同步采集:系统并行录制屏幕帧、鼠标键盘输入及音频,然后通过ASR转文字,再用大语言模型进行降噪和逻辑增强。视觉锚点因果对齐:用屏幕鼠标光标作为锚点,精确对齐每个动作信号到其执行帧,还原因果关系链。轨迹构建与优化:将两帧间的所有键鼠操作合并为动作事件,无操作标记为no-op;推理时时间戳重新定位到语义相关的动作,生成高度同步、因果一致的训练序列。
此外,为解决“行为惯性”问题,Game-TARS引入了指数衰减权重,对连续重复动作按指数降低权重,确保新动作获得足够关注,让模型更专注于高熵动作转变,学习出更稳健、泛化能力更强的策略。

在超过2万小时、约5000亿token的游戏数据上完成大规模预训练后,研究进入后训练阶段,进一步强化智能体在特定任务中的执行能力和交互智能,重点提升三大核心能力:
指令遵循:随机替换按键绑定(如将W键换成X代表“向前”),迫使模型依赖系统提示理解操作语义。同时让模型基于当前帧预测中间动作,加深对动作-状态因果关系的理解。稀疏思维能力:定位关键决策点,仅在高熵步距增强推理;通过拒绝微调强化高效稀疏思维,让智能体学会在关键时刻深思熟虑。长期记忆:引入双层记忆机制——短期记忆保存最新图像,长期记忆只保留精炼的稀疏思维文本。
此外,为了将能力扩展到游戏之外,后训练还引入了跨领域轨迹数据,包括代码生成、GUI自动化和科研任务,帮助Game-TARS从游戏玩家成长为多功能计算机用户。

在具体的训练细节上,研究采用了统一的、单阶段的持续预训练方法,将所有数据源融合在一起,并对模型进行了超过5000亿token的训练。
在后训练阶段,对约200亿个高质量token进行了微调。
实验结果验证
研究团队首先通过在《我的世界》中测试智能体的能力,验证了统一动作空间和大规模持续预训练的有效性。

与基于grounding或API的动作方式不同,研究发现统一动作空间在训练数据少于100亿时,初始成功率方面并未超越基于GUI动作的智能体。
然而,统一动作空间的关键优势在于其可扩展性——可以高效地收集大规模数据,并且智能体能够使用一致的格式对所有游戏进行预训练。
扩展实验证实,这种统一动作空间为实现通用智能体提供了卓越的基础。
当在大量的通用计算机使用数据语料库上进行训练后,基于统一动作空间的Game-TARS在《我的世界》中的表现比之前最先进的专家模型提高了约2倍。
正如开头演示所展示的,研究进行了广泛评估:包括FPS游戏Vizdoom、3D模拟器Miniworld和在线网页游戏。
实验表明,Game-TARS的迷你版本在各种任务上都超越了知名的预训练模型,如Gemini-2.5-Pro、GPT-5和Claude-4-Sonnet,展示了其在跨领域中的卓越性能。

此外,实验表明Game-TARS在训练和推理过程中都具有可扩展性。

总的来说,Game-TARS依靠简单通用的原生键鼠动作空间,实现了大规模跨领域训练。
这一设计不仅提升了智能体的扩展性,也为未来在更多任务和环境中的泛化能力奠定了坚实基础。
团队背景
Game-TARS的第一作者是北京大学人工智能研究院博士研究生——王子豪。
王子豪师从梁一韬教授,主要研究方向聚焦于开放式通用智能体的构建,涵盖计算机应用、具身游戏与深度研究等领域,致力于通过大型预训练模型提升智能体的泛化与自主能力。

目前,他在字节跳动Seed团队担任研究实习生。
相关攻略
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大
IT之家 4 月 4 日消息,当地时间 4 月 4 日(今天)凌晨,据《商业内幕》援引知情人士消息称,Meta 正为其超级智能业务组建独立的硬件团队,并引入资深工程师负责领导,进一步推进 AI 设备
据BusinessInsider报道,Meta的超级智能部门正在组建一支专属硬件团队,并招募一位资深工程师担任负责人,此举是Meta公司深耕AI硬件设备领域的重要布局。Meta旗下Reality L
智东西编译 陈佳编辑 程茜智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据最新博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数
机器之心发布近期,我们注意到 openJiuwen 社区持续获得国际关注,先后登上多家海外科技媒体。亚太头部科技媒体Tech in Asia专题报道了 openJiuwen 先进的架构设计理念 [1
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





