AI智能体自主看屏幕操作效率大幅提升

时间：2026-07-03 16:07

最近 Codex 放出一个新能力：它能捕捉屏幕，录制一套工作流，然后自动将其转化为 Skill，最终形成你自己的 SOP。有用户试过让它帮忙读微信聊天记录并回复，结果发现，Codex 根本没办法把聊天内容同步到上下文里，更别提直接代劳回复了。微信小微的内测资格虽然已经拿到，但目前只限于手机端，而很

最近 Codex 放出一个新能力：它能捕捉屏幕，录制一套工作流，然后自动将其转化为 Skill，最终形成你自己的 SOP。

有用户试过让它帮忙读微信聊天记录并回复，结果发现，Codex 根本没办法把聊天内容同步到上下文里，更别提直接代劳回复了。微信小微的内测资格虽然已经拿到，但目前只限于手机端，而很多人的主力办公设备依然是电脑。试过一些所谓的“骚操作”，要么不够丝滑，要么存在安全隐忧。

说起来，最近倒是被安利了一个真正能盯着屏幕干活的 Agent。

右侧这个助手，能像人一样盯着你的屏幕，自己滑动窗口，总结上下文。比如，它刚刚帮「AI 先行者联盟」微信群总结了昨日的精华内容。遇到视频或链接，它还能自己点开看完，然后把关键信息纳入上下文。

这个家伙叫 Vida。定位很明确：一个 Proactive Agent（主动型智能体）。它能持续理解用户的上下文，积累长期记忆，预判你的意图，主动协作完成复杂工作，并直接交付可用的成果。

它能感知到你当前所处的应用环境，结合上下文帮你做文案润色。比如，最近 Wesight 推出了宠物语音新功能，你想在用户群里问问大家的使用体验。在聊天界面用快捷键唤出 Vida，它会自动感知当前是微信应用，你只需说一句“润色这条回复”，它就能识别群聊上下文，给出优化后的文案。

更有意思的是，它还能扮演智能客服的角色。群里有人问一个项目的技术细节，你一时想不起具体内容。把问题甩给 Vida，它并没有被上传过任何项目文档，却能自己跑到电脑里搜索相关文件、GitHub 本地仓库、历史聊天和项目记录，然后返回一个可以直接复制粘贴的回答。

这种能力的关键在于：Vida 会理解上下文，判断用户意图，并主动寻找解决方案。

Wesight 后台积累了大量的 Issue。项目规模上来之后，想一眼看出哪些问题需要优先处理，已经不太现实。于是让 Vida 把整个仓库过了一遍。它自动读取了所有代码和 Issue，按照核心架构、运行环境、AI 引擎集成等维度分门别类，并排好了优先级。后面该修什么、先修什么，直接看它列的清单干活就行。更省心的是，它还顺手把这些任务加到了待办，并安排进了明天的日程里。

这种感觉确实很妙。用 Wesight 连接 Claude Code 做网页时，只输入了一句提示词，让 Vida 帮忙优化一下。它很快给出了两个优化版本，复制粘贴回去，生成的网页效果交互感直接拉满，样式也相当不错。

工作间隙，让 Vida 做了个桌面大扫除。堆在桌面上的各种凌乱文档和临时图片，被分类整理得整整齐齐。忙到晚上，它还会自动生成一张「今日战报卡」，清晰列出了完成的事项、关键产出、用时分布、今日关键词以及明天的 To-do 计划。

更神奇的是，在测试视觉交互和整理 Obsidian 笔记时，并没有主动打开过 Vida。但晚上看战报时，Vida 居然在今日进展里，把这两件事清清楚楚地列了出来。

这种无需主动召唤、悄悄在后台打助攻的能力，确实很顶。这也正是它最核心的定位：Proactive Agent（主动型智能体）。相比普通被动等待指令的 AI，Vida 能持续理解你的工作上下文，积累属于你自己的长期记忆，提前预判你的意图，主动站出来协助处理各种复杂日常，并直接交付成型的结果。

从 Codex 录屏固化 SOP，到操作系统级别的 Agent，一个趋势已经很明显：Agent 的上下文正在从「文本/对话」向「屏幕」快速转变。智能体的演进，正在迎来一个碘伏性的方向——从「你告诉我」变成「我看见你」。这种转变，某种程度上意味着 AI 助手正在从工具走向伙伴。你不再需要频繁输入指令，它默默看着你的屏幕，就能懂你在忙什么、需要什么，然后主动打出助攻。

来源：https://juejin.cn/post/7657197094155632640

其他

上一篇单次对话上下文腐烂问题的避免与解决策略 下一篇AI基础设施基线构想的概念解析与未来方向

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧，覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景，可一键完成系统维护与文件管理工作，极大提升自动化操作效率和便捷性。

AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名； r递归搜索指定路径及其子目录中的文件； l生成数值序列； f可解析文件、字符串或命令输出，通过delims、tokens、skip、eol等选项灵活处理内容。

AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜，因为他们关注你、助你成长。面对批评应包容反思，用行动改进而非辩解。接受批评是自我完善的过程，能让人少走弯路，避免重复犯错。这样的人正是生命中的贵人，值得感恩与珍惜。

AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变，最终核心职责是提供关键信息，协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态，而非单纯把关或追求完美。

AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年，我在田纳西大学攻读研究生时，意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择，说起来还有些戏剧性——某个早晨，教授质问我为何缺席那么多开发会议，我解释说这些会议总是安排在周末早上，对我这个第一次离家、刚入学的学生来说实在不便。结果呢？等待我的不是解聘通