摘要:OpenAI Codex 提供了三种操控电脑的模式:内置浏览器、Chrome 扩展以及 Computer Use。Jason Liu 在其最新文章中清晰解析了三者的差异,但更值得玩味的是他背后所蕴含的“操作系统”思维。
最近在 X(原 Twitter)上看到一条推文,获得了353个赞和519次收藏。发布者 Jason Liu 来自 OpenAI Codex 团队。
他撰写的文章标题是《Three Ways Codex Can Use a Computer》。
说实话,我的第一反应并非“又有新功能了”,而是——终于有人把这些问题说透彻了。
使用 Codex 一段时间后,我发现对于 $browser、@chrome 和 @computer 这三个模式,常常搞不清楚何时该用哪个。经常是启用了 @computer 导致鼠标被接管,无法进行其他操作,后来才发现其实只需 @chrome 就能完成任务。
这不仅仅是“选择工具”的问题。如果选错模式,Token 消耗可能高达正确选择的数倍,工作效率也会大打折扣。
图片来源:x.com/jxnlco/stat…
图表说明:三种模式的核心定位与适用场景概述
一、三种模式:并非三个独立功能,而是三层抽象
先抛出结论:这三者并非并列的功能选项,而是基于不同深度的计算机控制方式。一旦理解这一本质,便不会选错。
$browser:内置浏览器——最轻量的初始方案
这是 Codex 内置的沙箱浏览器,开箱即用,无需安装任何插件。但它存在几个硬性限制:
- 不支持登录态——无法访问 Gmail、Slack 等需要登录的网站
- 不支持浏览器 Profile——没有 Cookie、扩展及历史记录
- 不支持已有标签页——完全隔离的环境
那么它适合什么场景?
主要用于本地开发服务器。例如在 Codex 中启动一个 Vite dev server,让它打开 localhost:3000 预览效果,正是 $browser 的强项。你还可以在页面内进行标注(Annotation),选中某个元素并指出“这个按钮颜色不对”,Codex 即可识别。
Jason Liu 提出了一个非常精辟的观点:
这也是常见做法——编写一个简单的 index.html,效果远胜于 Markdown 输出。因为当输出变成一个可交互的小应用时,你与它的关系就改变了——不再只是阅读文档,而是在使用一个工具。
@chrome:Chrome 扩展——需要登录状态时的最佳选择
当任务涉及已登录的网站时,$browser 无法胜任。这时你需要 @chrome。
安装方法:在 Codex 设置中添加 Chrome 插件,然后安装对应的 Chrome 扩展。完成后,Codex 便能在你已登录的 Chrome 浏览器中执行操作。
这一模式的核心价值在于:
- 可以使用已登录的账号——Salesforce、LinkedIn、内部工具等均可
- 支持多标签并行——Codex 会利用 Chrome Tab Group 组织任务,不会打乱你的浏览器布局
- 不会独占整个浏览器——这是与
@computer的关键区别
Jason Liu 提供了一个很好的例子:他的工作电脑上 Twitter 登录在 Safari 中。如果使用 @computer 读取 Twitter,他将无法同时使用 Safari。但使用 @chrome 则无此困扰——Codex 在 Chrome 的若干标签页中工作,Safari 可以照常使用。
不过需要留意安全问题。Reddit 上有用户提醒:永远不要让 AI Agent 操作你真正重视的账号。因为 Codex 在你已登录的网站上执行点击、提交表单等操作时,网站会将此视为你本人的行为。
@computer:Computer Use——最后的“核武器”选择
这是最重量级的一招。Codex 会直接进行截屏、点击和输入,像人类一样操控你的桌面。
它能做的事情最多:操作任何 GUI 应用程序、点击任意按钮、输入任何字段。但代价也是最大的:
- macOS 需要授予屏幕录制和辅助功能权限
- Windows 上会抢占前台——鼠标被接管,无法进行其他操作
- Token 消耗巨大——每个操作都需要截图、识别和决策
- EU/UK 区域暂时不可用
因此 Jason Liu 的原则很简单:如果某项任务有专门的插件或 MCP 服务器,应优先使用那些工具;只有在必须操作 GUI 时才启用 @computer。
图表说明:依据任务类型选择最合适的浏览器模式
二、Jason Liu 真正探讨的核心是什么?
表面上,这篇文章讨论的是三种浏览器模式的区别。但如果你读过 Jason Liu 之前那篇更长的《Codex-maxxing》,就会发现他真正探讨的内容远不止于此。
他正在强调一个核心概念:Operating Loop(运行循环)。
什么是 Operating Loop?简单来说就是——让工作在你离开后仍能自动运行。
一个完整的 Operating Loop 需要以下组件:
- Durable Thread(持久线程)——一个不会消失的对话,持续积累历史与上下文
- Shared Memory(共享记忆)——将学到的信息写入文件,而非堆积在对话历史中
- Computer Use(计算机操作)——让 Agent 能够查看并操作你的电脑
- Heartbeat(心跳)——允许线程定时自行唤醒进行检查
这三种浏览器模式,实际上只是第 3 点的具体化实现。但 Jason Liu 的独到之处在于,他并未孤立地使用这些功能,而是将它们串联成一个整体。
例如他举出的这个实例:
这个循环跨越了三个工具:Slack(获取反馈)、Remotion(渲染视频)和 @computer(上传文件,因为 Slack MCP 不支持上传功能)。
这正是 Jason Liu 所指的关键时刻:
图表说明:Codex Operating Loop 的四大核心组件
三、Heartbeat:真正意义上的杀手级功能
很多人认为 Computer Use 很酷,Chrome 扩展很便捷。但整个体系中最具颠覆性的当属 Heartbeat。
Jason Liu 的“Chief of Staff”线程配置如下:
每 30 分钟,检查 Slack 和 Gmail 中是否有需要我回复的消息。帮我按照优先级排序。如果有人提出问题,尽可能深入调研并起草回复,但不要发送出去。
当他回到 Slack 时,回复草稿已经准备就绪。他仍然需要决定哪些内容发送、哪些不发送,但最耗费时间的“收集上下文”工作已经自动完成了。
还有一个更加令人惊叹的例子:
这种用法已经完全超越了“编程助手”的范畴。Codex 转变为一个能够代为处理重复性事务的 Agent。
四、社区反馈与评价
这篇推文获得了 519 次收藏,表明许多人认为它很有价值。不过,在 Reddit 和其他社区中,也出现了不少不同的声音。
正面看法(约占 40%):
- “Computer Use 彻底改变了我的工作流程”
- “终于能让 Agent 操作桌面应用了”
- “Chrome 扩展解决了登录态的痛点,太实用了”
务实观点(约占 35%):
- “Computer Use 太消耗 Token 了,一次简单操作可能就需要多轮截图”
- “Windows 上鼠标被接管,根本无法进行其他工作”
- “还是在虚拟机里运行更安全”
批评声音(约占 25%):
- “EU/UK 用户又被忽略了?Computer Use 和 Chrome 扩展都无法使用”
- “月付 200 美元,Windows 用户却几乎没有任何新功能”
- “别让 AI 操作你的账号,存在被封禁的风险”
Reddit 上有一条非常现实的评论:
这说明社区已经找到了自己的替代方案。官方的 Chrome 扩展虽然更方便,但并非唯一选择。
另一个安全提醒同样值得关注:有用户在 YouTube 上使用 Codex 进行自动操作时,账号被系统标记为机器人行为。因此——永远不要让 AI Agent 操作你真实重视的账号。建议使用小号或虚拟机。
五、我的分析与建议
首先从技术角度判断:这三种模式的设计非常合理。$browser 作为沙箱环境、@chrome 作为桥梁、@computer 作为终极手段,层级清晰,递进关系明确。
但 Jason Liu 文章中最有价值的部分,并非三种模式的区别,而是他将它们融入到一个更大的框架中——Operating Loop。
单独审视 Computer Use,它只是一个截图加点击的工具。然而,当你将其与 Heartbeat、Memory 和 Durable Thread 串联起来时,它就变成了一个可自主运行的 Agent 的“手脚”。
这才是 Codex 乃至整个 Agent 领域的发展方向:并非让 AI 更聪明地回答问题,而是使其能在你不在场时替你处理事务。
实践建议如下:
- 从
$browser开始——在侧边栏预览index.html,这是成本最低、效率最高的用法 - 仅在需要登录态时才使用
@chrome——并设置网站白名单,避免意外操作 - 将
@computer作为最后手段——最好在虚拟机中运行,防止鼠标被接管 - 尝试组合使用——一个由 Heartbeat、
@chrome和 Memory 构成的循环,效果远胜于单独使用任一功能
但必须承认,当前这些功能仍存在明显短板。Token 消耗是一大痛点——Computer Use 的每一步操作都需要截图、识别和决策,一个简单任务可能消耗你预期 5 倍的 Token。Windows 上的体验远不及 macOS——缺乏后台运行和 Locked Use 功能,更新节奏也慢一拍。EU/UK 用户更是被排除在外。
不过,方向是正确的。当 Agent 不仅能编写代码,还能操控你的电脑、替你运行流程、在你休息时仍持续工作——那才是真正的“AI 同事”。
Jason Liu 有一句话说得非常精辟:
这句话值得反复体味。
参考资料
- Three Ways Codex Can Use a Computer - Jason Liu (X 文章)
- Codex-maxxing - Jason Liu
- Computer Use - OpenAI 开发者文档
- Chrome Extension - OpenAI 开发者文档
- In-App Browser - OpenAI 开发者文档
- Codex now works directly in Chrome - Reddit r/codex
- Codex can now use Chrome directly - YouTube (OpenAI 官方)
- Computer Use in Codex - Reddit r/accelerate
- Codex Chrome Extension Not A vailable - DEV Community
话题标签:#OpenAI #Codex #ComputerUse #AIAgent #浏览器自动化 #Chrome扩展
