当你坐在电脑前专注处理工作时,身旁仿佛有一位沉默的观察者静静凝视着你的每一次操作:你点击何处,它便望向何处;你填写什么内容,它便默默记录。待你完成所有步骤后,它轻声说道:“下次,这项工作就交给我吧。”
这正是 Codex 近期重磅推出的新功能——Record & Replay。

简单来说,它的核心就是“录制+复现”。
你只需完整地演示一遍操作流程,Codex 在一旁学习观察,随后将整串步骤打包成一个可复用的 skill(技能)。下次遇到相同任务时,你只需开启新对话,调用这个 skill,并告知本次有哪些不同之处,剩余工作便全由 Codex 自主完成。
图形界面——这个为帮助人类摆脱命令行而被创造出的伟大设计,如今正逐步成为 AI 接管电脑的现成基础设施。
「学徒」模式正式上线,Codex 开始复制你的工作流
当然,并非所有任务都适合采用这种方式。
Record & Replay 瞄准的是那些重复性强、依赖个人偏好、难以用语言清晰描述但实际做一遍就能心领神会的任务。典型适用场景包括:报销流程、预订停车位、创建配置正确的 issue、发布视频、拉取周期性报表。
这些任务的共同特征是:要么步骤既固定又繁琐,要么隐藏着大量只有你本人熟悉的隐性规则。
比如文件该如何命名、某个字段默认填写什么内容、遇到分叉路口应选择哪条路径。若要用文字逐条向 AI 解释,成本极高——不如直接操作一遍,让它自行观察学习。

实际操作流程比想象中更简洁,主要分为七个步骤。
首先,在 Codex 应用中打开 Plugins(插件)面板,搜索并添加 Record & Replay 插件。

随后,系统会请求录制权限,你确认准备就绪后点击同意即可。

接下来的过程,就是你在 Mac 电脑上正常地完成手头任务。

在此期间,Codex 全程保持观察,学习这套操作需要点击哪些位置、操作哪些窗口中的内容。

录制会持续进行,直到你主动中止。因此请牢记:专心完成指定任务,切勿在录制中途转向其他操作。
完成任务后,通过菜单栏或悬浮层停止录制,或者直接对 Codex 说一声“录完了”。

录制结束后,Codex 会回放刚捕捉到的操作流程,并自动起草一个 skill。这个 skill 中清晰写明了:何时应使用这套流程、需要哪些输入参数、执行步骤是什么、以及如何验证结果。
如果你觉得它起草得不够完善,还可以要求它进一步优化打磨。
以下几条录制建议值得认真遵循:
演示应尽量简短而完整;录制开始前,先将目标以及每次都会变化的输入信息告知 Codex;使用真实输入内容,但绝对不要录入密码或敏感数据;录制完成后,补充重要的隐性偏好,例如命名规范、字段默认值、决策点的选择方式;流程结束后立即停止录制,避免拖入无关的收尾动作。
至于后续的复现过程则非常简单:开启新对话,调用该 skill,将本次的具体数值传递给它——比如要上传哪个文件、创建哪个 issue、报表需要哪段时间范围。

有一个关键设定值得注意:Codex 会将这个 skill 视为可复用的上下文(reusable context)。
这是什么意思呢?这个 skill 并非一段固定不变的脚本,而是一份可供每次参考、结合当前环境灵活执行的说明书。因此,同一个 skill,这次传入 A 文件、下次传入 B 文件,它都能自动适配使用。
在实际执行任务时,它会调用当前环境下可用的工具,包括 Computer Use、浏览器操作以及已安装的插件,从而完整跑完整个流程。
Codex 究竟如何「使用电脑」
让我们来看一次公开演示。
这次 Codex 需要学习的是上传 YouTube 视频的完整流程。它的工作方式是:紧盯用户在 YouTube Studio 中的操作,将点击、选择文件、输入文字等一系列动作全部捕捉下来。
从选择视频文件、填写标题与描述、上传缩略图、添加字幕到设置隐私选项等步骤,Codex 全部记录下来,并随后展示了独立复现的能力。
更有趣的是,它并非机械地照搬步骤,而是试图理解背后的逻辑与门道。
例如,何时应将视频设为 Private、何时设为 Unlisted;如何管理成对的 .mp4 视频文件和 .srt 字幕文件;元数据字段应如何填写;字幕如何与视频内容对齐。
它还现场处理了一次报错:
当缺乏 Python 环境时,它直接从已安装的 skill 位置读取信息,自行适配解决。而这一整段录制下来的内容,最终被转译成一个随时可调用的 skill。
换言之,一旦 Codex 学会,理论上就能够在无人监控的情况下反复执行。对于那些每天需要上传大量视频的内容工作流而言,这项功能确实极具实用价值。

要理解它凭什么能够复现,首先需要弄清 Codex 操作电脑的原理。
OpenAI 工程师 Jason 此前梳理过 Codex 使用电脑的三种途径,能力各有重叠,也各有擅长的领域。总体原则是:能用插件或 MCP 时就优先使用,视觉控制则留给结构化工具无法覆盖的角落。
第一种是 Computer Use,覆盖面最广。
它能够在 macOS 和 Windows 上查看并操作图形界面,通过窗口、菜单、键盘、剪贴板来控制已获得授权的应用。
代价是速度较慢,因为它需要查看界面、判断点击位置、等待响应、再确认状态,每一步都需要反复确认。但优势也很明显:那些没有 API 的应用它同样能够应对,例如 Spotify、Xcode、系统设置、iOS 模拟器,甚至可以通过 iPhone 镜像来操作 iPhone 设备。
在 macOS 上,它还可以在后台运行,让你同时进行其他操作。它的信任边界也最为宽松,但凡是涉及资金、账户、支付、凭据的改动,建议你全程在场监督。
这也解释了为什么 Record & Replay 必须与 Computer Use 同时开启——它录制下来的操作要复现,依赖的正是 Computer Use 这套查看界面、操控鼠标键盘的底层能力。

第二种是 Chrome 扩展。
它接管你已经登录好的 Chrome 浏览器,适合那些依赖账号、cookie、已认证标签页的任务,比如 Gmail、Salesforce、内部仪表盘。它能够同时管理多个标签页,将同一个任务的不同标签页串联成一个完整的工作流来理解。
代价是它会带着你的身份进行操作,网站会将其点击和提交视为你本人的行为,因此涉及发送、发布、购买等步骤时,通常需要你先审核确认。
第三种是应用内浏览器。
它运行在 Codex 对话内部,与你共享同一个渲染页面,特别适合开发调试 Web 应用。它最大的特点是隔离性——不会触碰你的浏览器配置、cookie、扩展和登录会话。
需要时这是限制,不需要时反而是一个干净的边界。开发者可以让它修改代码、操作页面、截图、修复问题后再运行,形成紧密的反馈循环,还能直接点击页面元素留下设计意见。
此外还有一个名为 Appshot 的机制,它不直接操作电脑,而是负责将 Codex 的注意力引向你当前关注的内容。在 Mac 上连续按两下 CMD 键,它会抓取最前面的窗口,将图像和文字附加到对话中。你可以直接针对一个报错、一封邮件或一个看不懂的表单向它提问。
用 Jason 的话来说,Appshot 负责指方向,而浏览器、Chrome 扩展和 Computer Use 负责动手操作。至于 Record & Replay 录制下来的 skill,则可以随时调用上述任意一种或多种方式来复现操作。

人类操作软件的经验,正在逐步转化为 AI 技能
自今年年初以来,Codex 的发布节奏不断加快,许多人都不知道的是,Codex 应用、CLI 和 SDK 并非只能搭配 OpenAI 自家模型使用。
只需在 config.toml 中配置 model_providers,你就可以将 Codex 指向 Ollama、LM Studio 等本地开源模型,也能连接 Mistral、Azure、Amazon Bedrock 等第三方服务。加上 --oss 参数即可运行本地 provider,若不指定则默认使用 oss_provider。

也就是说,Record & Replay 这种能力所依托的客户端本身对模型是开放的。
当然,它也有适用范围。Record & Replay 是从一次演示中快速创建 skill 的捷径,但如果你希望将一个稳定的包分发给整个团队、捆绑多个 skill、添加应用集成或 MCP 服务器、管理安装元数据,那么请不要停留在录制层面,而是将其打包成独立的插件。
此外,还有几个上手前最好了解的限制条件。
目前,Record & Replay 仅在 macOS 上可用,首发不覆盖欧盟、英国和瑞士地区,并且必须先开启 Computer Use 功能。
如果你作为组织管理员,还需要注意一个容易踩坑的地方:
如果你们使用 requirements.toml 统一管理 Codex,那么 [features].computer_use 这一项会同时控制 Record & Replay 的启用状态。

一旦将 computer_use 设为 false,你会发现这两个功能会一同消失。因此,如果你发现「我这边根本看不到 Record & Replay」,请优先检查这一项是否被关闭。
「Record & Replay」的上线,表面上只是一个录制和复现操作的小功能,但放在更大的背景下,它代表着 AI 与软件交互方式的一次重要转变。
过去,自动化的基础是 API。软件必须先开放接口,将能力封装成机器可调用的服务,自动化工具和 AI 才能接手流程。没有 API,没有结构化入口,许多任务就无法实现自动化。
因此,传统自动化的边界往往取决于软件愿意开放多少能力。
但现在,OpenAI 试图绕开这层限制。它不再要求软件专门为 AI 提供接口,而是让 AI 直接学习人类使用软件的方式。人能看懂按钮、菜单和窗口,它也能理解;人能完成点击、输入和页面切换,它也能执行。

这意味着,AI 的工作对象开始从 API 扩展到整个图形界面。换言之,「Computer Use」负责赋予 AI 操作电脑的能力,而「Record & Replay」则负责将人的操作经验沉淀为可复用的技能。
这背后对应的,其实是操作系统角色的变化。过去,操作系统是所有软件的组织者。我们在 Mac 或 Windows 上安装各种应用,再通过人工在不同软件之间切换、复制、整理和传递信息。
人始终是连接各个软件的中间层。
而当 AI 能够跨应用观察、理解并执行任务时,它开始承担这层角色。对用户而言,关注点逐渐从「如何操作软件」转向「想完成什么事情」。

报销软件如何填写、视频后台如何配置、多个系统之间如何来回切换——这些细节理论上都可以交给 AI 处理。照这样发展下去,未来真正频繁使用软件的,或许不再是人类,而是 AI。
对于 AI 来说,漂亮的界面没有意义,复杂的菜单也无意义。它更关心的是:这个软件能否完成任务、能否被调用、能否稳定执行流程。
从这个角度看,「Record & Replay」真正有意思的地方,并非又多了一个自动化功能,而是它透露出一种新的趋势:人正在从软件的直接操作者,逐渐转变为软件能力的训练者。
今天我们学习如何使用工具,未来或许更重要的一项能力,是教会 AI 使用工具。
