游乐游手机版
首页/业界动态/文章详情

看屏幕用键鼠我的OpenClaw成功睁眼

时间:2026-05-31 17:39
OpenClaw推出桌面操控工具Peekaboo,具备像素级截图、UI元素识别与GUI自动化能力,使AI能自主完成鼠标点击、输入、滚动等操作。测试显示其可执行复杂跨软件任务,如信息检索与数据汇总,且无需API或SDK适配。但存在坐标偏移、上下文遗忘、执行速度慢及Token成本高等局限。

2026年5月11日,本地AI智能体框架OpenClaw正式上线了macOS专属桌面操控工具Peekaboo。这个名字听起来有点俏皮,但能力一点不含糊——像素级截图、UI元素识别、完整的GUI自动化,一个不少。说白了,就是给Agent装上了一双眼睛,让它从此看得见屏幕、点得到按钮,甚至能像人一样自主操作电脑。

看屏幕、用键鼠,我的 OpenClaw「睁眼」了

要说GUI自动化,其实一直是OpenClaw在Computer Use上的最后一块短板。在此之前,Agent的交互模式基本停留在文本对话层面——虽然指令遵循和任务闭环做得相当成熟,但图形操作界面始终是人类的专属领地。Peekaboo的登场,直接把Agent拉进了下一个时代。只有真正“看见”屏幕,它们才算成为能全权接管桌面的自主执行体。

那么对普通用户来说,这到底意味着什么体验上的革新?Peekaboo又凭什么让AI真正掌控桌面?第一时间上手实测,答案比想象中更有意思。

01 接管桌面,OpenClaw 超进化

“Agent的眼睛”——听起来像是个锦上添花的附加功能,但这个描述远远低估了Peekaboo的真实分量。它真正打破的,是Agent只能被动应答的旧格局,直接将其拉入真实的桌面操作场景。

Peekaboo搭载的像素级识别能力,能自动精准标注屏幕上所有的按钮、输入框、弹窗、软件窗口等界面元素,而且完全不需要人工标记或提前适配。与此同时,它还能完美模拟人类操作逻辑,自主完成鼠标点击、文字输入、页面滚动、快捷键操控这一整套键鼠行为。

但最硬核的还是它的无依赖通用性。Peekaboo不依赖任何软件的最新API,也无需嵌入SDK做适配,这意味着所有桌面软件、网页平台都能直接兼容。它在赛博世界里留下的操作痕迹,就像是一个真实的人类用户——凡是你能操作的,它都能接手。

这实际上已经在重新定义我们操作电脑的底层逻辑。而第一个需要搞清楚的问题是:Peekaboo到底是具备真实落地能力,还是只是个噱头满满的Agent玩具?在真实的桌面环境下,我们先测试了它的复杂连续操作能力。

测试内容是一项信息检索任务。我们要求Peekaboo打开Safari浏览器,自动关闭网页弹窗干扰,然后在顶部搜索框查找「AI近期大事」,从搜索结果中打开第一条,再关闭页面。整套流程全部由OpenClaw自主完成。任务本身不算复杂,但实际操作涉及图标识别、按钮点击、弹窗检测、搜索框定位、内容输入等多项能力。

尤其是在同一个页面里执行输入内容、定位词条这类操作时,从视频记录看,Peekaboo成功规避了弹窗干扰,并适配了动态网页布局,说明它能够稳定识别复杂的软件界面。更关键的是,在多步骤连贯的桌面操作中,Peekaboo的操作逻辑非常贴合人类的使用习惯。

至此可以断定,Peekaboo绝非那种只支持单点点击的演示型工具。当然,对于GUI自动化来说,这还只是入门。真正考验落地能力的,是任务流延伸到跨软件甚至跨系统时,Peekaboo是否还能实现全流程自主操作。

于是第二项测试来了——将信息检索延伸到成果交付阶段。要求Peekaboo在Safari中搜索百度热搜榜,依次提取热搜榜、电影榜、小说榜、电视剧榜前六名的数据,然后回到桌面新建Excel表格,将采集到的四类榜单数据汇总。

结果相当利落:Peekaboo自主完成了整套长链路复合任务。浏览器部分已经在案例一中验证过,这次更值得关注的是它在浏览器、办公软件、系统桌面、文件夹、系统设置等多个平台之间的自如跳转,全程没有出现需要人工干预的卡顿。这意味着OpenClaw和Peekaboo的结合,已经具备了真实的办公自动化能力。而OpenClaw的定位,也正从AI工具的调用者,转向下一代桌面环境操作底座。在Agent普遍以调用第三方工具为核心逻辑的当下,Peekaboo让OpenClaw成了距离“接管整个电脑”最近的选手。

02 极客玩具,普通人也能上手了

长期以来,AI桌面自动化工具基本是极客群体的专属,很难走进普通用户的日常办公和生活场景。Peekaboo打破僵局的方式很简单——部署太容易了。它既可以作为MCP服务运行,一行命令行就能无缝接入OpenClaw、Codex、Claude Code或Cursor;小白用户也可以直接在ClawHub安装Peekaboo Skill,零配置上手。

事实上,GUI自动化并非全新赛道,类似产品此前并不少见。但偏偏是作为后来者的Peekaboo,踩上了新一代多模态技术的风口。UI识别曾是长期困扰这一赛道的核心瓶颈——突如其来的弹窗、页面内容变动,导致的GUI自动化翻车几乎家常便饭。而Peekaboo不绑定任何单一厂商,等于坐收多模态技术水涨船高的红利。

除此之外,过去的GUI自动化工具还得看软件厂商的脸色——系统权限牢牢握在对方手里,真正能落地的场景极其有限,强行上马的结果往往是被拉进黑名单。到最后,有能力和毅力把这些工具用起来的,也就只剩下极客群体了。

对OpenClaw而言,这不再是问题。传统方案是等着厂商开放API接口,而Peekaboo直接操作屏幕,不仅绕开了请求许可的环节,更意味着那些多年未曾更新的小众软件、从未对外开放接口的内部工具,都被一视同仁地纳入了能力范围。

多模态技术的迭代加上对封闭生态的突破,某种程度上,Peekaboo成了第一款普通人也能用的桌面自动化工具。

在把这种碘伏性的桌面操控能力交到大众手中的同时,Peekaboo另一个让人惊喜的点是它高度完善的安全性保障。隐私方面,Peekaboo虽然会对操作界面进行像素级截图,但由于全程跑在本地,屏幕画面无需上传云端。可控性方面,Peekaboo执行的每一项任务都有完整的操作记录供追溯,由手动触发启动,不支持后台静默运行,并且可以随时一键中断。多重安全机制叠加,虽然做不到绝对零风险,但操作主动权始终在用户手里,有效规避了AI后台私自操作、隐私数据泄露这些核心风险。

03 必经之路,还是权宜之计

出色的桌面操控能力之外,Peekaboo也暴露了不少GUI自动化工具常见的通病。

首先是坐标偏移。不同的显示器分辨率、窗口缩放比例下,页面元素位置的变化偶尔会导致点击坐标漂移、操作点位偏差。尽管整体识别率处于较高水平,但这仍然影响了Peekaboo在复杂任务上的完成精度。

其次是上下文遗忘。超长程任务进行到后半段时,Peekaboo常常会忘记自己之前干了什么,然后重复执行某些操作,直到卡死进程。

当然,如果看过前面的测试视频,会发现最明显的问题还是执行速度。复杂界面识别、超长任务流程都会带来比较明显的延迟,这也是GUI自动化工具的通病。一个解释是,视觉方案在执行速度上没法跟通过代码命令直接操作相比。但更值得追问的是,这是否意味着视觉方案的落地能力本身就有限?

除了操作精准性和执行速度,通过多模态理解实现的GUI自动化还意味着不小的Token成本。Peekaboo在设计之初显然考虑到了这一点,试图通过VQA定向分析和元素ID压缩来减少消耗。VQA定向分析是指多模态模型收到屏幕截图后,不返回完整图像描述,而是针对具体问题生成精简回答;元素ID压缩则是用短ID来标记界面UI元素,相比原始坐标或完整描述更加紧凑。但一旦跟代码命令方案做比较,这仍然是一笔不可忽视的成本。

在Peekaboo之前,另一个耐人寻味的例子是豆包手机助手。后者初期凭借便捷体验快速出圈,但很快因为使用安卓系统级高危权限模拟用户点击、跨应用跳转,被微信、支付宝、淘宝等主流App的风控系统识别为异常行为,导致部分跨应用操作功能受限或被迫下线,甚至一度遭到众多主流软件厂商的声讨。时至今日,其后续发展仍然面临着生态兼容与合作模式的重大不确定性。

这背后,是GUI自动化技术在权限边界、数据主权和商业利益上与现有移动生态的深层冲突。Peekaboo为规避生态壁垒而生,却无法真正绕开它。当Agent之争走向落地执行能力的较量时,速度、成本、准确性,日后都可能成为Peekaboo的命门。

视觉方案——到底是打通AI现实操作链路的必经之路,还是生态封禁被真正突破之前的权宜之计?这个问题,值得所有人拭目以待。

来源:https://www.leiphone.com/category/industrynews/uV7OmZjvBiOcHxFD.html
上一篇商汤去掉VAE 8B参数重新定义开源生图上限 下一篇特斯拉Model Y手动伸缩遮阳帘售价1499元
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿