游乐游手机版
首页/AI教程/文章详情

Codex三种电脑使用模式,选错白白浪费Token

时间:2026-06-19 14:09
OpenAICodex有三种操作电脑模式:内置浏览器轻量但无登录态,Chrome扩展可登录网站,桌面操作消耗令牌。选错模式浪费资源。核心将三者融入运行循环中,结合心跳机制实现自主智能体,让AI在用户离开后继续工作。

摘要:OpenAI Codex 提供了三种操控电脑的模式:内置浏览器、Chrome 扩展以及 Computer Use。Jason Liu 在其最新文章中清晰解析了三者的差异,但更值得玩味的是他背后所蕴含的“操作系统”思维。

最近在 X(原 Twitter)上看到一条推文,获得了353个赞和519次收藏。发布者 Jason Liu 来自 OpenAI Codex 团队。

他撰写的文章标题是《Three Ways Codex Can Use a Computer》。

说实话,我的第一反应并非“又有新功能了”,而是——终于有人把这些问题说透彻了。

使用 Codex 一段时间后,我发现对于 $browser@chrome@computer 这三个模式,常常搞不清楚何时该用哪个。经常是启用了 @computer 导致鼠标被接管,无法进行其他操作,后来才发现其实只需 @chrome 就能完成任务。

这不仅仅是“选择工具”的问题。如果选错模式,Token 消耗可能高达正确选择的数倍,工作效率也会大打折扣。

图片来源:x.com/jxnlco/stat…

图表说明:三种模式的核心定位与适用场景概述

一、三种模式:并非三个独立功能,而是三层抽象

先抛出结论:这三者并非并列的功能选项,而是基于不同深度的计算机控制方式。一旦理解这一本质,便不会选错。

$browser:内置浏览器——最轻量的初始方案

这是 Codex 内置的沙箱浏览器,开箱即用,无需安装任何插件。但它存在几个硬性限制:

  • 不支持登录态——无法访问 Gmail、Slack 等需要登录的网站
  • 不支持浏览器 Profile——没有 Cookie、扩展及历史记录
  • 不支持已有标签页——完全隔离的环境

那么它适合什么场景?

主要用于本地开发服务器。例如在 Codex 中启动一个 Vite dev server,让它打开 localhost:3000 预览效果,正是 $browser 的强项。你还可以在页面内进行标注(Annotation),选中某个元素并指出“这个按钮颜色不对”,Codex 即可识别。

Jason Liu 提出了一个非常精辟的观点:

这也是常见做法——编写一个简单的 index.html,效果远胜于 Markdown 输出。因为当输出变成一个可交互的小应用时,你与它的关系就改变了——不再只是阅读文档,而是在使用一个工具。

@chrome:Chrome 扩展——需要登录状态时的最佳选择

当任务涉及已登录的网站时,$browser 无法胜任。这时你需要 @chrome

安装方法:在 Codex 设置中添加 Chrome 插件,然后安装对应的 Chrome 扩展。完成后,Codex 便能在你已登录的 Chrome 浏览器中执行操作。

这一模式的核心价值在于:

  • 可以使用已登录的账号——Salesforce、LinkedIn、内部工具等均可
  • 支持多标签并行——Codex 会利用 Chrome Tab Group 组织任务,不会打乱你的浏览器布局
  • 不会独占整个浏览器——这是与 @computer 的关键区别

Jason Liu 提供了一个很好的例子:他的工作电脑上 Twitter 登录在 Safari 中。如果使用 @computer 读取 Twitter,他将无法同时使用 Safari。但使用 @chrome 则无此困扰——Codex 在 Chrome 的若干标签页中工作,Safari 可以照常使用。

不过需要留意安全问题。Reddit 上有用户提醒:永远不要让 AI Agent 操作你真正重视的账号。因为 Codex 在你已登录的网站上执行点击、提交表单等操作时,网站会将此视为你本人的行为。

@computer:Computer Use——最后的“核武器”选择

这是最重量级的一招。Codex 会直接进行截屏、点击和输入,像人类一样操控你的桌面。

它能做的事情最多:操作任何 GUI 应用程序、点击任意按钮、输入任何字段。但代价也是最大的:

  • macOS 需要授予屏幕录制和辅助功能权限
  • Windows 上会抢占前台——鼠标被接管,无法进行其他操作
  • Token 消耗巨大——每个操作都需要截图、识别和决策
  • EU/UK 区域暂时不可用

因此 Jason Liu 的原则很简单:如果某项任务有专门的插件或 MCP 服务器,应优先使用那些工具;只有在必须操作 GUI 时才启用 @computer

图表说明:依据任务类型选择最合适的浏览器模式

二、Jason Liu 真正探讨的核心是什么?

表面上,这篇文章讨论的是三种浏览器模式的区别。但如果你读过 Jason Liu 之前那篇更长的《Codex-maxxing》,就会发现他真正探讨的内容远不止于此。

他正在强调一个核心概念:Operating Loop(运行循环)。

什么是 Operating Loop?简单来说就是——让工作在你离开后仍能自动运行。

一个完整的 Operating Loop 需要以下组件:

  1. Durable Thread(持久线程)——一个不会消失的对话,持续积累历史与上下文
  2. Shared Memory(共享记忆)——将学到的信息写入文件,而非堆积在对话历史中
  3. Computer Use(计算机操作)——让 Agent 能够查看并操作你的电脑
  4. Heartbeat(心跳)——允许线程定时自行唤醒进行检查

这三种浏览器模式,实际上只是第 3 点的具体化实现。但 Jason Liu 的独到之处在于,他并未孤立地使用这些功能,而是将它们串联成一个整体。

例如他举出的这个实例:

这个循环跨越了三个工具:Slack(获取反馈)、Remotion(渲染视频)和 @computer(上传文件,因为 Slack MCP 不支持上传功能)。

这正是 Jason Liu 所指的关键时刻:

图表说明:Codex Operating Loop 的四大核心组件

三、Heartbeat:真正意义上的杀手级功能

很多人认为 Computer Use 很酷,Chrome 扩展很便捷。但整个体系中最具颠覆性的当属 Heartbeat。

Jason Liu 的“Chief of Staff”线程配置如下:

每 30 分钟,检查 Slack 和 Gmail 中是否有需要我回复的消息。帮我按照优先级排序。如果有人提出问题,尽可能深入调研并起草回复,但不要发送出去。

当他回到 Slack 时,回复草稿已经准备就绪。他仍然需要决定哪些内容发送、哪些不发送,但最耗费时间的“收集上下文”工作已经自动完成了。

还有一个更加令人惊叹的例子:

这种用法已经完全超越了“编程助手”的范畴。Codex 转变为一个能够代为处理重复性事务的 Agent。

四、社区反馈与评价

这篇推文获得了 519 次收藏,表明许多人认为它很有价值。不过,在 Reddit 和其他社区中,也出现了不少不同的声音。

正面看法(约占 40%):

  • “Computer Use 彻底改变了我的工作流程”
  • “终于能让 Agent 操作桌面应用了”
  • “Chrome 扩展解决了登录态的痛点,太实用了”

务实观点(约占 35%):

  • “Computer Use 太消耗 Token 了,一次简单操作可能就需要多轮截图”
  • “Windows 上鼠标被接管,根本无法进行其他工作”
  • “还是在虚拟机里运行更安全”

批评声音(约占 25%):

  • “EU/UK 用户又被忽略了?Computer Use 和 Chrome 扩展都无法使用”
  • “月付 200 美元,Windows 用户却几乎没有任何新功能”
  • “别让 AI 操作你的账号,存在被封禁的风险”

Reddit 上有一条非常现实的评论:

这说明社区已经找到了自己的替代方案。官方的 Chrome 扩展虽然更方便,但并非唯一选择。

另一个安全提醒同样值得关注:有用户在 YouTube 上使用 Codex 进行自动操作时,账号被系统标记为机器人行为。因此——永远不要让 AI Agent 操作你真实重视的账号。建议使用小号或虚拟机。

五、我的分析与建议

首先从技术角度判断:这三种模式的设计非常合理。$browser 作为沙箱环境、@chrome 作为桥梁、@computer 作为终极手段,层级清晰,递进关系明确。

但 Jason Liu 文章中最有价值的部分,并非三种模式的区别,而是他将它们融入到一个更大的框架中——Operating Loop。

单独审视 Computer Use,它只是一个截图加点击的工具。然而,当你将其与 Heartbeat、Memory 和 Durable Thread 串联起来时,它就变成了一个可自主运行的 Agent 的“手脚”。

这才是 Codex 乃至整个 Agent 领域的发展方向:并非让 AI 更聪明地回答问题,而是使其能在你不在场时替你处理事务。

实践建议如下:

  1. $browser 开始——在侧边栏预览 index.html,这是成本最低、效率最高的用法
  2. 仅在需要登录态时才使用 @chrome——并设置网站白名单,避免意外操作
  3. @computer 作为最后手段——最好在虚拟机中运行,防止鼠标被接管
  4. 尝试组合使用——一个由 Heartbeat、@chrome 和 Memory 构成的循环,效果远胜于单独使用任一功能

但必须承认,当前这些功能仍存在明显短板。Token 消耗是一大痛点——Computer Use 的每一步操作都需要截图、识别和决策,一个简单任务可能消耗你预期 5 倍的 Token。Windows 上的体验远不及 macOS——缺乏后台运行和 Locked Use 功能,更新节奏也慢一拍。EU/UK 用户更是被排除在外。

不过,方向是正确的。当 Agent 不仅能编写代码,还能操控你的电脑、替你运行流程、在你休息时仍持续工作——那才是真正的“AI 同事”。

Jason Liu 有一句话说得非常精辟:

这句话值得反复体味。

参考资料

  • Three Ways Codex Can Use a Computer - Jason Liu (X 文章)
  • Codex-maxxing - Jason Liu
  • Computer Use - OpenAI 开发者文档
  • Chrome Extension - OpenAI 开发者文档
  • In-App Browser - OpenAI 开发者文档
  • Codex now works directly in Chrome - Reddit r/codex
  • Codex can now use Chrome directly - YouTube (OpenAI 官方)
  • Computer Use in Codex - Reddit r/accelerate
  • Codex Chrome Extension Not A vailable - DEV Community

话题标签:#OpenAI #Codex #ComputerUse #AIAgent #浏览器自动化 #Chrome扩展

来源:https://juejin.cn/post/7652586257183080489
上一篇GEO自动迭代系统云原生实践:从数据采集到策略闭环 下一篇同品牌老款新款服务器RAID5故障风险区分与数据恢复
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网