最近 Codex 放出一个新能力:它能捕捉屏幕,录制一套工作流,然后自动将其转化为 Skill,最终形成你自己的 SOP。
有用户试过让它帮忙读微信聊天记录并回复,结果发现,Codex 根本没办法把聊天内容同步到上下文里,更别提直接代劳回复了。微信小微的内测资格虽然已经拿到,但目前只限于手机端,而很多人的主力办公设备依然是电脑。试过一些所谓的“骚操作”,要么不够丝滑,要么存在安全隐忧。
说起来,最近倒是被安利了一个真正能盯着屏幕干活的 Agent。
右侧这个助手,能像人一样盯着你的屏幕,自己滑动窗口,总结上下文。比如,它刚刚帮「AI 先行者联盟」微信群总结了昨日的精华内容。遇到视频或链接,它还能自己点开看完,然后把关键信息纳入上下文。
这个家伙叫 Vida。定位很明确:一个 Proactive Agent(主动型智能体)。它能持续理解用户的上下文,积累长期记忆,预判你的意图,主动协作完成复杂工作,并直接交付可用的成果。
它能感知到你当前所处的应用环境,结合上下文帮你做文案润色。比如,最近 Wesight 推出了宠物语音新功能,你想在用户群里问问大家的使用体验。在聊天界面用快捷键唤出 Vida,它会自动感知当前是微信应用,你只需说一句“润色这条回复”,它就能识别群聊上下文,给出优化后的文案。
更有意思的是,它还能扮演智能客服的角色。群里有人问一个项目的技术细节,你一时想不起具体内容。把问题甩给 Vida,它并没有被上传过任何项目文档,却能自己跑到电脑里搜索相关文件、GitHub 本地仓库、历史聊天和项目记录,然后返回一个可以直接复制粘贴的回答。
这种能力的关键在于:Vida 会理解上下文,判断用户意图,并主动寻找解决方案。
Wesight 后台积累了大量的 Issue。项目规模上来之后,想一眼看出哪些问题需要优先处理,已经不太现实。于是让 Vida 把整个仓库过了一遍。它自动读取了所有代码和 Issue,按照核心架构、运行环境、AI 引擎集成等维度分门别类,并排好了优先级。后面该修什么、先修什么,直接看它列的清单干活就行。更省心的是,它还顺手把这些任务加到了待办,并安排进了明天的日程里。
这种感觉确实很妙。用 Wesight 连接 Claude Code 做网页时,只输入了一句提示词,让 Vida 帮忙优化一下。它很快给出了两个优化版本,复制粘贴回去,生成的网页效果交互感直接拉满,样式也相当不错。
工作间隙,让 Vida 做了个桌面大扫除。堆在桌面上的各种凌乱文档和临时图片,被分类整理得整整齐齐。忙到晚上,它还会自动生成一张「今日战报卡」,清晰列出了完成的事项、关键产出、用时分布、今日关键词以及明天的 To-do 计划。
更神奇的是,在测试视觉交互和整理 Obsidian 笔记时,并没有主动打开过 Vida。但晚上看战报时,Vida 居然在今日进展里,把这两件事清清楚楚地列了出来。
这种无需主动召唤、悄悄在后台打助攻的能力,确实很顶。这也正是它最核心的定位:Proactive Agent(主动型智能体)。相比普通被动等待指令的 AI,Vida 能持续理解你的工作上下文,积累属于你自己的长期记忆,提前预判你的意图,主动站出来协助处理各种复杂日常,并直接交付成型的结果。
从 Codex 录屏固化 SOP,到操作系统级别的 Agent,一个趋势已经很明显:Agent 的上下文正在从「文本/对话」向「屏幕」快速转变。智能体的演进,正在迎来一个碘伏性的方向——从「你告诉我」变成「我看见你」。这种转变,某种程度上意味着 AI 助手正在从工具走向伙伴。你不再需要频繁输入指令,它默默看着你的屏幕,就能懂你在忙什么、需要什么,然后主动打出助攻。
