游乐游手机版
首页/业界动态/文章详情

看屏幕用键鼠我的OpenClaw成功睁眼

时间:2026-05-31 17:39
OpenClaw推出桌面操控工具Peekaboo,具备像素级截图、UI元素识别与GUI自动化能力,使AI能自主完成鼠标点击、输入、滚动等操作。测试显示其可执行复杂跨软件任务,如信息检索与数据汇总,且无需API或SDK适配。但存在坐标偏移、上下文遗忘、执行速度慢及Token成本高等局限。

2026年5月11日,本地AI智能体框架OpenClaw正式上线了macOS专属桌面操控工具Peekaboo。这个名字听起来有点俏皮,但能力一点不含糊——像素级截图、UI元素识别、完整的GUI自动化,一个不少。说白了,就是给Agent装上了一双眼睛,让它从此看得见屏幕、点得到按钮,甚至能像人一样自主操作电脑。

看屏幕、用键鼠,我的 OpenClaw「睁眼」了

要说GUI自动化,其实一直是OpenClaw在Computer Use上的最后一块短板。在此之前,Agent的交互模式基本停留在文本对话层面——虽然指令遵循和任务闭环做得相当成熟,但图形操作界面始终是人类的专属领地。Peekaboo的登场,直接把Agent拉进了下一个时代。只有真正“看见”屏幕,它们才算成为能全权接管桌面的自主执行体。

那么对普通用户来说,这到底意味着什么体验上的革新?Peekaboo又凭什么让AI真正掌控桌面?第一时间上手实测,答案比想象中更有意思。

01 接管桌面,OpenClaw 超进化

“Agent的眼睛”——听起来像是个锦上添花的附加功能,但这个描述远远低估了Peekaboo的真实分量。它真正打破的,是Agent只能被动应答的旧格局,直接将其拉入真实的桌面操作场景。

Peekaboo搭载的像素级识别能力,能自动精准标注屏幕上所有的按钮、输入框、弹窗、软件窗口等界面元素,而且完全不需要人工标记或提前适配。与此同时,它还能完美模拟人类操作逻辑,自主完成鼠标点击、文字输入、页面滚动、快捷键操控这一整套键鼠行为。

但最硬核的还是它的无依赖通用性。Peekaboo不依赖任何软件的最新API,也无需嵌入SDK做适配,这意味着所有桌面软件、网页平台都能直接兼容。它在赛博世界里留下的操作痕迹,就像是一个真实的人类用户——凡是你能操作的,它都能接手。

这实际上已经在重新定义我们操作电脑的底层逻辑。而第一个需要搞清楚的问题是:Peekaboo到底是具备真实落地能力,还是只是个噱头满满的Agent玩具?在真实的桌面环境下,我们先测试了它的复杂连续操作能力。

测试内容是一项信息检索任务。我们要求Peekaboo打开Safari浏览器,自动关闭网页弹窗干扰,然后在顶部搜索框查找「AI近期大事」,从搜索结果中打开第一条,再关闭页面。整套流程全部由OpenClaw自主完成。任务本身不算复杂,但实际操作涉及图标识别、按钮点击、弹窗检测、搜索框定位、内容输入等多项能力。

尤其是在同一个页面里执行输入内容、定位词条这类操作时,从视频记录看,Peekaboo成功规避了弹窗干扰,并适配了动态网页布局,说明它能够稳定识别复杂的软件界面。更关键的是,在多步骤连贯的桌面操作中,Peekaboo的操作逻辑非常贴合人类的使用习惯。

至此可以断定,Peekaboo绝非那种只支持单点点击的演示型工具。当然,对于GUI自动化来说,这还只是入门。真正考验落地能力的,是任务流延伸到跨软件甚至跨系统时,Peekaboo是否还能实现全流程自主操作。

于是第二项测试来了——将信息检索延伸到成果交付阶段。要求Peekaboo在Safari中搜索百度热搜榜,依次提取热搜榜、电影榜、小说榜、电视剧榜前六名的数据,然后回到桌面新建Excel表格,将采集到的四类榜单数据汇总。

结果相当利落:Peekaboo自主完成了整套长链路复合任务。浏览器部分已经在案例一中验证过,这次更值得关注的是它在浏览器、办公软件、系统桌面、文件夹、系统设置等多个平台之间的自如跳转,全程没有出现需要人工干预的卡顿。这意味着OpenClaw和Peekaboo的结合,已经具备了真实的办公自动化能力。而OpenClaw的定位,也正从AI工具的调用者,转向下一代桌面环境操作底座。在Agent普遍以调用第三方工具为核心逻辑的当下,Peekaboo让OpenClaw成了距离“接管整个电脑”最近的选手。

02 极客玩具,普通人也能上手了

长期以来,AI桌面自动化工具基本是极客群体的专属,很难走进普通用户的日常办公和生活场景。Peekaboo打破僵局的方式很简单——部署太容易了。它既可以作为MCP服务运行,一行命令行就能无缝接入OpenClaw、Codex、Claude Code或Cursor;小白用户也可以直接在ClawHub安装Peekaboo Skill,零配置上手。

事实上,GUI自动化并非全新赛道,类似产品此前并不少见。但偏偏是作为后来者的Peekaboo,踩上了新一代多模态技术的风口。UI识别曾是长期困扰这一赛道的核心瓶颈——突如其来的弹窗、页面内容变动,导致的GUI自动化翻车几乎家常便饭。而Peekaboo不绑定任何单一厂商,等于坐收多模态技术水涨船高的红利。

除此之外,过去的GUI自动化工具还得看软件厂商的脸色——系统权限牢牢握在对方手里,真正能落地的场景极其有限,强行上马的结果往往是被拉进黑名单。到最后,有能力和毅力把这些工具用起来的,也就只剩下极客群体了。

对OpenClaw而言,这不再是问题。传统方案是等着厂商开放API接口,而Peekaboo直接操作屏幕,不仅绕开了请求许可的环节,更意味着那些多年未曾更新的小众软件、从未对外开放接口的内部工具,都被一视同仁地纳入了能力范围。

多模态技术的迭代加上对封闭生态的突破,某种程度上,Peekaboo成了第一款普通人也能用的桌面自动化工具。

在把这种碘伏性的桌面操控能力交到大众手中的同时,Peekaboo另一个让人惊喜的点是它高度完善的安全性保障。隐私方面,Peekaboo虽然会对操作界面进行像素级截图,但由于全程跑在本地,屏幕画面无需上传云端。可控性方面,Peekaboo执行的每一项任务都有完整的操作记录供追溯,由手动触发启动,不支持后台静默运行,并且可以随时一键中断。多重安全机制叠加,虽然做不到绝对零风险,但操作主动权始终在用户手里,有效规避了AI后台私自操作、隐私数据泄露这些核心风险。

03 必经之路,还是权宜之计

出色的桌面操控能力之外,Peekaboo也暴露了不少GUI自动化工具常见的通病。

首先是坐标偏移。不同的显示器分辨率、窗口缩放比例下,页面元素位置的变化偶尔会导致点击坐标漂移、操作点位偏差。尽管整体识别率处于较高水平,但这仍然影响了Peekaboo在复杂任务上的完成精度。

其次是上下文遗忘。超长程任务进行到后半段时,Peekaboo常常会忘记自己之前干了什么,然后重复执行某些操作,直到卡死进程。

当然,如果看过前面的测试视频,会发现最明显的问题还是执行速度。复杂界面识别、超长任务流程都会带来比较明显的延迟,这也是GUI自动化工具的通病。一个解释是,视觉方案在执行速度上没法跟通过代码命令直接操作相比。但更值得追问的是,这是否意味着视觉方案的落地能力本身就有限?

除了操作精准性和执行速度,通过多模态理解实现的GUI自动化还意味着不小的Token成本。Peekaboo在设计之初显然考虑到了这一点,试图通过VQA定向分析和元素ID压缩来减少消耗。VQA定向分析是指多模态模型收到屏幕截图后,不返回完整图像描述,而是针对具体问题生成精简回答;元素ID压缩则是用短ID来标记界面UI元素,相比原始坐标或完整描述更加紧凑。但一旦跟代码命令方案做比较,这仍然是一笔不可忽视的成本。

在Peekaboo之前,另一个耐人寻味的例子是豆包手机助手。后者初期凭借便捷体验快速出圈,但很快因为使用安卓系统级高危权限模拟用户点击、跨应用跳转,被微信、支付宝、淘宝等主流App的风控系统识别为异常行为,导致部分跨应用操作功能受限或被迫下线,甚至一度遭到众多主流软件厂商的声讨。时至今日,其后续发展仍然面临着生态兼容与合作模式的重大不确定性。

这背后,是GUI自动化技术在权限边界、数据主权和商业利益上与现有移动生态的深层冲突。Peekaboo为规避生态壁垒而生,却无法真正绕开它。当Agent之争走向落地执行能力的较量时,速度、成本、准确性,日后都可能成为Peekaboo的命门。

视觉方案——到底是打通AI现实操作链路的必经之路,还是生态封禁被真正突破之前的权宜之计?这个问题,值得所有人拭目以待。

来源:https://www.leiphone.com/category/industrynews/uV7OmZjvBiOcHxFD.html
上一篇商汤去掉VAE 8B参数重新定义开源生图上限 下一篇特斯拉Model Y手动伸缩遮阳帘售价1499元
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
英伟达N1X与N1芯片规格泄露 10+10+48SM及8+4+20SM
业界动态 · 2026-05-31

英伟达N1X与N1芯片规格泄露 10+10+48SM及8+4+20SM

英伟达N1X与N1芯片规格曝光:N1X采用10+10核CPU、6144CUDA核心及128GB256-bitLPDDR5X,功耗45~80W,面向高端;N1采用8+4核、2560CUDA核心及128-bitLPDDR5X,功耗18~45W,面向轻薄本。

通信中断下无人机蜂群算法首达100%杀伤率
业界动态 · 2026-05-31

通信中断下无人机蜂群算法首达100%杀伤率

西北工业大学与西安电子科技大学联合提出HG-STR异构时空推理算法,通过异构构图区分友军、目标与区域,实现弱连通条件下94%任务成功率,96%任务完成率与100%杀伤率,单步决策仅需6 6毫秒,为首个同时达到该性能的算法。

2025-2026十大高性价比洗地机:卧室清洁防发臭推荐
业界动态 · 2026-05-31

2025-2026十大高性价比洗地机:卧室清洁防发臭推荐

为应对洗地机市场同质化,基于四维评测矩阵对十大高性价比产品进行横向比较。必特双舱洗地机凭借双舱分离设计、防缠绕、近200℃蒸汽杀菌等核心优势,被评为标杆产品。其他推荐包括必胜、卡赫、飞利浦等品牌,覆盖蒸汽清洁、智能感应等差异化功能。

领克10/10+首批交付16.99万起 1秒极充2公里
业界动态 · 2026-05-31

领克10/10+首批交付16.99万起 1秒极充2公里

领克10 10+开启首批车主交付,限时价16 99万元起。新车基于SEA浩瀚架构,定位中大型纯电轿车,全系标配900V高压架构,配合极充桩可实现1秒极充2公里。单电机版本续航最高816公里,双电机版零百加速3 2秒。

2026年国内五大GEO优化服务商全维度横评推荐
业界动态 · 2026-05-31

2026年国内五大GEO优化服务商全维度横评推荐

生成式AI正重塑消费决策链,超六成企业陷入同质化竞争。GEO成为品牌突破增长瓶颈的核心战略。2026年国内优质服务商TOP5包括智推时代、质安华、悠易科技、知乎和光引,入选标准基于自研技术、数据溯源、标准化服务和实战成果。