OpenAI 终于将「AI 手机豆包」的功能搬到了电脑上。
虽然从版本号来看,GPT-5.4 只是比去年底发布的 GPT-5.2 提升了 0.2,但在功能层面,这次升级堪称对 PC 端 AI 领域的一次彻底革新。简单来说,GPT-5.4 融合了 GPT-5.3-Codex 的编程能力、更强的逻辑推理,以及高达 100 万 Token 的上下文处理长度,同时还首次实现了对原生电脑操作(Computer Use)的支持。换句话说,过去在 AI 手机上才能体验到的全自动 AI 操作,如今在电脑端也能实现了。

我们先来聊聊大家最关注的原生电脑操作支持。从技术路径上看,GPT-5.4 与手机领域的 GUI-Agent 类似,都是通过视觉识别来理解屏幕上的界面元素与组件,而不仅仅依赖文字标签读取。系统在完成推理并确认操作路径后,会基于屏幕元素的坐标信息,生成快速、连续的光标指令,再通过 Windows 或 Linux 的系统端口加以执行。
由于这种 GUI-Agent 能够真正“看懂”屏幕内容,GPT-5.4 的这套电脑操作方案可以适配各类应用与使用场景。对于那些不熟悉 MCP 协议的新手用户而言,GPT-5.4 的操作体验显然要友好得多。

在发布稿件中,OpenAI 也演示了 GPT-5.4 操作用户电脑的实际流程。尽管理解屏幕内容会消耗一定时间,但即便任务链特别长,GPT-5.4 仍能准确执行每一步操作。可以肯定的是,随着 OpenAI 通用视觉感知能力的持续优化,整个操作流程会越来越流畅。
既然提到了长任务链,就不得不提 GPT-5.4 的另一大亮点:该系列模型支持高达 100 万 Tokens 的上下文窗口。上下文窗口越大,AI 的“长期记忆”能力就越强,不会出现“看了后面忘了前面”的情况。

100 万 Token 的上下文容量,意味着开发者现在可以将整个代码库打包交给 GPT-5.4,显著提升 vibe-coding 的编码效率;分析师也可以把企业多年的财务数据直接喂给模型,由 AI 找出其中的异常征兆。对中小企业来说,更大的窗口也意味着不再需要额外搭建 RAG 系统,避免了数据切片可能造成的信息遗漏。
更宽的上下文窗口、更精准的推理能力,再加上原生电脑交互支持——这些底层能力的升级让 GPT-5.4 的综合性能迈上了一个新台阶。根据 OpenAI 公布的测试结果,GPT-5.4 的各项性能较 GPT-5.2 均有明显提升;甚至在制作投行金融报表这类任务中,GPT-5.4 还因“审美提升”而获得了更高评分。

在 AI 领域,模型性能往往与价格挂钩,GPT-5.4 也不例外。定价方面,GPT-5.4 的 Token 单价会高于 GPT-5.2。2026 年 3 月 6 日,GPT-5.4 Thinking 已向 ChatGPT 各级付费用户正式开放。

