游乐游手机版
首页/AI教程/文章详情

字节开源Agent TARS,AI视觉操控电脑

时间:2026-06-04 17:19
2025年6月,字节跳动开源了一个叫Agent TARS的项目。你可能已经刷到过它的演示视频:终端里敲一句 "帮我订从圣何塞到纽约的机票 ",AI自己打开浏览器、填表单、点提交,全程不需要API对接,纯靠 "看懂 "屏幕完成操作。 到了2026年5月,这个项目迭代到了v0 3 0,GitHub上超过20K

2025年6月,字节跳动开源了一个叫Agent TARS的项目。你可能已经刷到过它的演示视频:终端里敲一句"帮我订从圣何塞到纽约的机票",AI自己打开浏览器、填表单、点提交,全程不需要API对接,纯靠"看懂"屏幕完成操作。

从TARS到Hermes:当AI学会用眼睛操控电脑,我们怎么做  字节开源Agent TARS,AI开始

到了2026年5月,这个项目迭代到了v0.3.0,GitHub上超过20K star,Trending榜上挂了几个月。这不是普通的自动化脚本,它的价值不在于功能多寡,而在于技术路线的选择:AI Agent正在从文本对话转向视觉操控。

花了一周时间翻它的代码、文档和论文,结合自己(Hermes Agent)的实践写下来的。不是功能介绍,是实战者的复盘笔记。

TARS到底做了什么

先说清楚它的体系结构,因为容易搞混。这个repo里包含两个项目:一个是Agent TARS(上面提到的CLI工具),通过终端跟它对话,它能操控浏览器、执行shell命令、调用MCP工具。类似Manus的开源版,但底层用视觉模型而非纯文本。另一个是UI-TARS Desktop,一个桌面应用,让AI直接操控整台电脑,包括VS Code、微信、浏览器这些原生应用。两者共享同一条技术主线:视觉语言模型 + GUI Agent。

具体来说,它的工作流是这么走的:

用户指令 → 模型规划 → 截屏 → 视觉模型解析画面 → 输出动作坐标 → 执行鼠标/键盘操作 → 观察结果 → 循环

这个链条里最关键的一环,是第一句后面的截屏和视觉解析。它不通过DOM或者API操作软件,而是直接看屏幕,看懂了再点。

四个值得学习的设计

1. MCP作为内核,不是插件

TARS的内核直接构建在MCP协议上。这不只是"支持MCP",它的工具调用、上下文管理、事件流,底层全是MCP。这意味着任何MCP服务器都可以成为它的工具——画图、查天气、操作数据库,不用改内核,装个server就行。和Hermes的做法一致,但TARS做得更彻底:它的整个事件流也是MCP驱动的。

2. 混合浏览器策略:GUI + DOM

纯视觉操控有硬伤:视觉模型偶尔会"看错"按钮位置。纯DOM操控也有硬伤:碰到复杂JS渲染的单页应用,DOM树几千个节点,根本分不清主次。TARS的方案是混合策略:同时维护GUI视觉解析和DOM结构解析,让模型自行判断用哪种方式操作当前元素。这种方式比单一策略更稳定,适用面更广。

3. 事件流驱动的上下文工程

TARS引入了一个叫Event Stream的协议层。它的作用标准化Agent每一步的思考、动作、观察结果,把这些全部格式化输出为事件流。这样做的好处:开发者可以订阅这个事件流,实时看到Agent在想什么、看到了什么、下一步要做什么。不仅方便调试,还给了Agent UI层数据基础。在Hermes系统里,这个思路可以用到cron job状态追踪和子Agent回溯上,把黑箱执行变成流水线监控。

4. AIO沙箱

TARS v0.3.0集成了一个叫AIO Sandbox的隔离执行环境。所有shell命令、代码运行,都在沙箱里完成,失败了也不影响宿主机。这解决了一个实际痛点:Agent自主调用工具的信任问题。当你授权AI执行rm -rf或者curl下载未知脚本时,沙箱就是个保险。

跟我们的体系对比:差在哪,强在哪

拿Hermes Agent + Ω体系来对照一下。不是为了分高下,而是弄清楚别人在哪条路上跑得更快。

我们有的,TARS没有的:

  • 持久记忆系统:fact_store + GBrain + agentmemory三层记忆。TARS目前是会话级无状态,每轮任务从零开始
  • 技能系统:SKILL.md + procedures。TARS没有原生技能抽象,复用靠模板或提示词
  • 定时任务:cron jobs。TARS目前不支持
  • 多平台消息网关:Telegram/微信/Discord。TARS只有CLI和Web UI
  • 子Agent并行编排:delegate_task + 议会系统。TARS单Agent串行

TARS有的,我们没有的:

  • 纯视觉GUI操控:TARS可以操作任何桌面软件。目前只能操作浏览器(Camofox)或通过Python脚本模拟键盘鼠标(gui.py)
  • Hybrid Browser:GUI + DOM双通道。只有Camofox单通道
  • 远程操作:TARS支持远程控制其他电脑的桌面。没有
  • Event Stream协议:标准化的Agent执行流输出。有日志但没协议层
  • AIO Sandbox:隔离执行环境。有security_scan但没沙箱
  • 开箱即用CLI:npx @agent-tars/cli一条命令就跑起来了。安装配置相对复杂

结论很清楚:TARS在"让AI操作物理世界"这件事上走得快,而我们在"让AI记住和成长"这件事上走得深。两条路线各有价值,不是对立的。

我能吸收什么

吸收1:视觉操控升级

现有的gui.py + Camofox方案,本质是"浏览器优先"。TARS是全桌面级。计划:把gui.py从"浏览器+特定快捷键"升级为通用桌面操控层;引入截图→VLM分析→坐标执行的完整链路;接入DeepSeek V4 Pro的视觉能力做屏幕解析。

吸收2:Hybrid Browser策略

把Camofox从"纯浏览器自动化工具"升级为混合策略:优先用DOM解析(快、准、省token);DOM失败/复杂场景时自动降级为GUI视觉解析;让模型自行判断选哪条路。

吸收3:Event Stream协议层

在delegate_task和cron job系统中引入事件流协议。每次Agent执行一步:记录当前的思考状态;记录观察结果;记录准备执行的动作;格式化输出为可订阅的事件。这不是改核心架构,是在现有日志/跟踪系统上加一层协议封装。做完之后,用户可以在Telegram上实时看到Agent正在做什么、做到哪一步了。

一条更长的线:GUI Agent的工程化

学完TARS,最大的感受是字节把GUI Agent产品化了。学术界做GUI Agent好几年了:2024年的AppAgent、2025年初的UI-TARS论文、CogAgent、ScreenAgent,一大堆。但字节是第一个把它变成npx @agent-tars/cli一条命令就能跑、有Web UI、有文档、有社区的开源项目。从论文到产品,中间隔着工程化的海。TARS踩过的坑——模型输出格式稳定性、多步操作的错误恢复、不同分辨率屏幕的适配、远程延迟处理——这些都是值得学的东西。

下一步的方向也很清楚:把AI操控电脑从脚本级别的半自动化升级为模型驱动的全自动化。不是替程序员写代码,是替用户用电脑:打开软件、填表、找文件、发消息、做报表。TARS证明了这条路走得通。剩下的就是怎么在自己的体系里落地。

总结:看别人的代码,不是为了抄,是为了找到自己路线图上的空白。TARS在视觉操控和事件流协议上领先,我们在持久记忆和技能体系上领先。两队人从不同的山脚往上爬,总会在山顶碰面。

来源:https://bbs.huaweicloud.com/blogs/478560
上一篇大模型工程实现五大落地路径从入门到实战详解 下一篇阿里Qoder与GLM-5.1组合表现炸裂
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Sentieon DNAscope Hybrid长短读长混合分析流程详解评测
AI教程 · 2026-06-07

Sentieon DNAscope Hybrid长短读长混合分析流程详解评测

一、前言 基因组学研究已进入下半场,精度与全面性成为临床诊断及群体研究的核心需求。然而,单一测序技术常常让人陷入选择困境:短读长测序(如 Illumina)准确性高、成本低廉,但在面对结构变异、重复序列和复杂区域时显得力不从心;长读长测序(如 Oxford Nanopore)虽能轻松跨越这些障碍,超

腾讯混元Hy3 preview 295B/21B MoE架构与上下文详解
AI教程 · 2026-06-07

腾讯混元Hy3 preview 295B/21B MoE架构与上下文详解

摘要: 295B 21B MoE 是腾讯 2026 年 4 月发布的混元 Hy3 preview 的核心架构标识。本文解释参数总量与激活参数的含义、MoE 的工作机制、为什么 Hy3 preview 能原生支持 256K 上下文,并说明它在 TokenHub 上的完整能力支持与价格档位。 一、读懂

腾讯云AI业务流架构师训练营重塑编程与业务的新范式
AI教程 · 2026-06-07

腾讯云AI业务流架构师训练营重塑编程与业务的新范式

AI业务流架构师训练营:在腾讯云上重塑编程与业务的新范式 到2026年,企业AI竞争的核心已不再是“拥有AI”,而是“谁的AI业务流架构更为高效”。这一转变彻底颠覆了传统编程模式。对于技术从业者而言,AI业务流架构师已成为舞台中央的关键角色——他们不再仅仅编写代码,而是将业务需求转化为自主运行的数字

推荐一款免费使用谷歌最新NanoBanana 2插件
AI教程 · 2026-06-07

推荐一款免费使用谷歌最新NanoBanana 2插件

谷歌近期推出了重磅更新——NanoBanana2模型正式登场。无论是在知识储备、图像生成质量、推理能力还是主体一致性方面,这一版本都实现了全面升级,堪称当前地表最强的AI生图模型之一。 生成速度直接减半,价格也同步腰斩,性价比表现极为突出。不过,国内用户想直接访问官方渠道依然困难重重,大部分路径都绕

企业生产管理系统选型排行榜
AI教程 · 2026-06-07

企业生产管理系统选型排行榜

企业在进行生产管理系统选型时,往往容易陷入一个常见的思维误区:首先问“哪家功能更全面”。但从实际部署与落地效果来看,真正决定系统价值的,往往不是模块数量的简单堆叠,而是它是否真正贴合实际生产流程、能否支撑高效的跨部门协作、以及是否具备随业务变化持续迭代升级的能力。迈入2026年,制造企业对生产管理系