Codex复读机功能上线教你让AI重复执行指令_AI热点日报

Codex复读机功能上线教你让AI重复执行指令

类型：热点整理2026-06-23

Codex上线Record&Replay功能，可录制用户操作生成可复用技能，让AI复现重复性任务。基于图形界面操控，适用于报销、上传视频等含隐性规则的工作，目前仅限macOS。

当你坐在电脑前专注处理工作时，身旁仿佛有一位沉默的观察者静静凝视着你的每一次操作：你点击何处，它便望向何处；你填写什么内容，它便默默记录。待你完成所有步骤后，它轻声说道：“下次，这项工作就交给我吧。”

这正是 Codex 近期重磅推出的新功能——Record & Replay。

简单来说，它的核心就是“录制+复现”。

你只需完整地演示一遍操作流程，Codex 在一旁学习观察，随后将整串步骤打包成一个可复用的 skill（技能）。下次遇到相同任务时，你只需开启新对话，调用这个 skill，并告知本次有哪些不同之处，剩余工作便全由 Codex 自主完成。

图形界面——这个为帮助人类摆脱命令行而被创造出的伟大设计，如今正逐步成为 AI 接管电脑的现成基础设施。

「学徒」模式正式上线，Codex 开始复制你的工作流

当然，并非所有任务都适合采用这种方式。

Record & Replay 瞄准的是那些重复性强、依赖个人偏好、难以用语言清晰描述但实际做一遍就能心领神会的任务。典型适用场景包括：报销流程、预订停车位、创建配置正确的 issue、发布视频、拉取周期性报表。

这些任务的共同特征是：要么步骤既固定又繁琐，要么隐藏着大量只有你本人熟悉的隐性规则。

比如文件该如何命名、某个字段默认填写什么内容、遇到分叉路口应选择哪条路径。若要用文字逐条向 AI 解释，成本极高——不如直接操作一遍，让它自行观察学习。

实际操作流程比想象中更简洁，主要分为七个步骤。

首先，在 Codex 应用中打开 Plugins（插件）面板，搜索并添加 Record & Replay 插件。

随后，系统会请求录制权限，你确认准备就绪后点击同意即可。

接下来的过程，就是你在 Mac 电脑上正常地完成手头任务。

在此期间，Codex 全程保持观察，学习这套操作需要点击哪些位置、操作哪些窗口中的内容。

录制会持续进行，直到你主动中止。因此请牢记：专心完成指定任务，切勿在录制中途转向其他操作。

完成任务后，通过菜单栏或悬浮层停止录制，或者直接对 Codex 说一声“录完了”。

录制结束后，Codex 会回放刚捕捉到的操作流程，并自动起草一个 skill。这个 skill 中清晰写明了：何时应使用这套流程、需要哪些输入参数、执行步骤是什么、以及如何验证结果。

如果你觉得它起草得不够完善，还可以要求它进一步优化打磨。

以下几条录制建议值得认真遵循：

演示应尽量简短而完整；录制开始前，先将目标以及每次都会变化的输入信息告知 Codex；使用真实输入内容，但绝对不要录入密码或敏感数据；录制完成后，补充重要的隐性偏好，例如命名规范、字段默认值、决策点的选择方式；流程结束后立即停止录制，避免拖入无关的收尾动作。

至于后续的复现过程则非常简单：开启新对话，调用该 skill，将本次的具体数值传递给它——比如要上传哪个文件、创建哪个 issue、报表需要哪段时间范围。

有一个关键设定值得注意：Codex 会将这个 skill 视为可复用的上下文（reusable context）。

这是什么意思呢？这个 skill 并非一段固定不变的脚本，而是一份可供每次参考、结合当前环境灵活执行的说明书。因此，同一个 skill，这次传入 A 文件、下次传入 B 文件，它都能自动适配使用。

在实际执行任务时，它会调用当前环境下可用的工具，包括 Computer Use、浏览器操作以及已安装的插件，从而完整跑完整个流程。

Codex 究竟如何「使用电脑」

让我们来看一次公开演示。

这次 Codex 需要学习的是上传 YouTube 视频的完整流程。它的工作方式是：紧盯用户在 YouTube Studio 中的操作，将点击、选择文件、输入文字等一系列动作全部捕捉下来。

从选择视频文件、填写标题与描述、上传缩略图、添加字幕到设置隐私选项等步骤，Codex 全部记录下来，并随后展示了独立复现的能力。

更有趣的是，它并非机械地照搬步骤，而是试图理解背后的逻辑与门道。

例如，何时应将视频设为 Private、何时设为 Unlisted；如何管理成对的 .mp4 视频文件和 .srt 字幕文件；元数据字段应如何填写；字幕如何与视频内容对齐。

它还现场处理了一次报错：

当缺乏 Python 环境时，它直接从已安装的 skill 位置读取信息，自行适配解决。而这一整段录制下来的内容，最终被转译成一个随时可调用的 skill。

换言之，一旦 Codex 学会，理论上就能够在无人监控的情况下反复执行。对于那些每天需要上传大量视频的内容工作流而言，这项功能确实极具实用价值。

要理解它凭什么能够复现，首先需要弄清 Codex 操作电脑的原理。

OpenAI 工程师 Jason 此前梳理过 Codex 使用电脑的三种途径，能力各有重叠，也各有擅长的领域。总体原则是：能用插件或 MCP 时就优先使用，视觉控制则留给结构化工具无法覆盖的角落。

第一种是 Computer Use，覆盖面最广。

它能够在 macOS 和 Windows 上查看并操作图形界面，通过窗口、菜单、键盘、剪贴板来控制已获得授权的应用。

代价是速度较慢，因为它需要查看界面、判断点击位置、等待响应、再确认状态，每一步都需要反复确认。但优势也很明显：那些没有 API 的应用它同样能够应对，例如 Spotify、Xcode、系统设置、iOS 模拟器，甚至可以通过 iPhone 镜像来操作 iPhone 设备。

在 macOS 上，它还可以在后台运行，让你同时进行其他操作。它的信任边界也最为宽松，但凡是涉及资金、账户、支付、凭据的改动，建议你全程在场监督。

这也解释了为什么 Record & Replay 必须与 Computer Use 同时开启——它录制下来的操作要复现，依赖的正是 Computer Use 这套查看界面、操控鼠标键盘的底层能力。

第二种是 Chrome 扩展。

它接管你已经登录好的 Chrome 浏览器，适合那些依赖账号、cookie、已认证标签页的任务，比如 Gmail、Salesforce、内部仪表盘。它能够同时管理多个标签页，将同一个任务的不同标签页串联成一个完整的工作流来理解。

代价是它会带着你的身份进行操作，网站会将其点击和提交视为你本人的行为，因此涉及发送、发布、购买等步骤时，通常需要你先审核确认。

第三种是应用内浏览器。

它运行在 Codex 对话内部，与你共享同一个渲染页面，特别适合开发调试 Web 应用。它最大的特点是隔离性——不会触碰你的浏览器配置、cookie、扩展和登录会话。

需要时这是限制，不需要时反而是一个干净的边界。开发者可以让它修改代码、操作页面、截图、修复问题后再运行，形成紧密的反馈循环，还能直接点击页面元素留下设计意见。

此外还有一个名为 Appshot 的机制，它不直接操作电脑，而是负责将 Codex 的注意力引向你当前关注的内容。在 Mac 上连续按两下 CMD 键，它会抓取最前面的窗口，将图像和文字附加到对话中。你可以直接针对一个报错、一封邮件或一个看不懂的表单向它提问。

用 Jason 的话来说，Appshot 负责指方向，而浏览器、Chrome 扩展和 Computer Use 负责动手操作。至于 Record & Replay 录制下来的 skill，则可以随时调用上述任意一种或多种方式来复现操作。

人类操作软件的经验，正在逐步转化为 AI 技能

自今年年初以来，Codex 的发布节奏不断加快，许多人都不知道的是，Codex 应用、CLI 和 SDK 并非只能搭配 OpenAI 自家模型使用。

只需在 config.toml 中配置 model_providers，你就可以将 Codex 指向 Ollama、LM Studio 等本地开源模型，也能连接 Mistral、Azure、Amazon Bedrock 等第三方服务。加上 --oss 参数即可运行本地 provider，若不指定则默认使用 oss_provider。

也就是说，Record & Replay 这种能力所依托的客户端本身对模型是开放的。

当然，它也有适用范围。Record & Replay 是从一次演示中快速创建 skill 的捷径，但如果你希望将一个稳定的包分发给整个团队、捆绑多个 skill、添加应用集成或 MCP 服务器、管理安装元数据，那么请不要停留在录制层面，而是将其打包成独立的插件。

此外，还有几个上手前最好了解的限制条件。

目前，Record & Replay 仅在 macOS 上可用，首发不覆盖欧盟、英国和瑞士地区，并且必须先开启 Computer Use 功能。

如果你作为组织管理员，还需要注意一个容易踩坑的地方：

如果你们使用 requirements.toml 统一管理 Codex，那么 [features].computer_use 这一项会同时控制 Record & Replay 的启用状态。

一旦将 computer_use 设为 false，你会发现这两个功能会一同消失。因此，如果你发现「我这边根本看不到 Record & Replay」，请优先检查这一项是否被关闭。

「Record & Replay」的上线，表面上只是一个录制和复现操作的小功能，但放在更大的背景下，它代表着 AI 与软件交互方式的一次重要转变。

过去，自动化的基础是 API。软件必须先开放接口，将能力封装成机器可调用的服务，自动化工具和 AI 才能接手流程。没有 API，没有结构化入口，许多任务就无法实现自动化。

因此，传统自动化的边界往往取决于软件愿意开放多少能力。

但现在，OpenAI 试图绕开这层限制。它不再要求软件专门为 AI 提供接口，而是让 AI 直接学习人类使用软件的方式。人能看懂按钮、菜单和窗口，它也能理解；人能完成点击、输入和页面切换，它也能执行。

这意味着，AI 的工作对象开始从 API 扩展到整个图形界面。换言之，「Computer Use」负责赋予 AI 操作电脑的能力，而「Record & Replay」则负责将人的操作经验沉淀为可复用的技能。

这背后对应的，其实是操作系统角色的变化。过去，操作系统是所有软件的组织者。我们在 Mac 或 Windows 上安装各种应用，再通过人工在不同软件之间切换、复制、整理和传递信息。

人始终是连接各个软件的中间层。

而当 AI 能够跨应用观察、理解并执行任务时，它开始承担这层角色。对用户而言，关注点逐渐从「如何操作软件」转向「想完成什么事情」。

报销软件如何填写、视频后台如何配置、多个系统之间如何来回切换——这些细节理论上都可以交给 AI 处理。照这样发展下去，未来真正频繁使用软件的，或许不再是人类，而是 AI。

对于 AI 来说，漂亮的界面没有意义，复杂的菜单也无意义。它更关心的是：这个软件能否完成任务、能否被调用、能否稳定执行流程。

从这个角度看，「Record & Replay」真正有意思的地方，并非又多了一个自动化功能，而是它透露出一种新的趋势：人正在从软件的直接操作者，逐渐转变为软件能力的训练者。

今天我们学习如何使用工具，未来或许更重要的一项能力，是教会 AI 使用工具。

来源：https://36kr.com/p/3863556465595649

ai

延伸阅读

补充最近整理过的热点入口。