GPT-5.4接入鼠标：100万Token实现AI数字员工

首页/科技数码/文章详情

GPT-5.4接入鼠标：100万Token实现AI数字员工

时间：2026-03-06 11:10

如果一个 AI 能够阅读整套项目文档，在复杂问题上进行长时间推理，并且自己操作电脑完成任务，它就不再只是一个聊天机器人。它更像是一种新的软件形态。随着 OpenAI 推出 GPT-5 4 Think

如果一个 AI 能够阅读整套项目文档，在复杂问题上进行长时间推理，并且自己操作电脑完成任务，它就不再只是一个聊天机器人。

它更像是一种新的软件形态。

随着 OpenAI 推出 GPT-5.4 Thinking 与 GPT-5.4 Pro，这种变化正在变得具体。100 万 Token 上下文、推理时计算模式，以及原生计算机操作能力，第一次在同一代模型中同时出现。

当这些能力开始汇合，大模型的角色也在发生转变——从回答问题，转向直接完成工作。

GPT-5.4：一次围绕“执行能力”的模型升级

2026 年 3 月初，硅谷再次进入密集的 AI 发布周期。

在多轮业内传闻之后，OpenAI 推出了 GPT-5.4 系列模型。与过去几次升级主要强化聊天体验或推理能力不同，这一版本的能力组合明显指向一个更实际的目标：让 AI 更直接地参与真实工作流程。

公开信息显示，模型的核心能力包括：最高 100 万 Token 上下文窗口、GPT-5.4 Thinking 推理模式、Computer-Use 原生计算机操作能力，以及 Tool Search 工具检索机制。这些能力并非单点突破，而是围绕“执行能力”的系统性升级。

在桌面任务基准 OSWorld benchmark 的测试中，模型完成任务的成功率约为 75%，略高于该 benchmark 的人类测试基线约 72%。而在职业任务评估 GDPval benchmark 中，模型在 44 种知识型工作任务中约 83% 的评分进入专家区间。

这些指标本身或许仍需要更多实际验证，但它们指向的趋势非常明确：AI 正在从信息处理工具变成任务执行系统。

长上下文：模型第一次能“读完整个项目”

企业在部署大模型时，一直面临一个结构性限制——上下文窗口。早期模型只能处理有限的信息量，这迫使企业构建复杂的 Retrieval-Augmented Generation（RAG）系统：文档被拆分、向量化、索引，再在查询时重新拼接给模型。

这种架构在过去两年成为 AI 工程的标准方案，但也带来了新的复杂度。数据被切块后，上下文关系容易丢失；检索系统本身也增加了延迟与维护成本。

GPT-5.4 将上下文窗口扩展到 100 万 Token。这意味着模型在单次任务中理论上可以处理完整代码库、长期财务记录，甚至整个项目文档集合。

RAG 并不会消失，因为权限控制、实时数据更新以及索引效率仍然是企业系统不可替代的一部分。但在很多分析型任务中，超长上下文确实降低了对复杂检索架构的依赖。

更重要的是，模型开始具备一种过去难以实现的能力：理解完整项目，而不是零散信息片段。

Computer-Use：AI 开始直接操作软件

如果说长上下文改变的是理解能力，那么 Computer-Use 改变的则是执行能力。

在这一模式下，模型可以通过视觉理解软件界面，并模拟鼠标点击、键盘输入以及应用导航等操作。这意味着 AI 不再只通过 API 调用系统，而是可以像用户一样直接操作软件界面。

这一变化对企业自动化领域尤其重要。过去二十年，大量企业流程自动化依赖 Robotic Process Automation（RPA）系统，其核心逻辑是通过脚本执行固定步骤，例如录入数据或在系统之间复制信息。

而具备视觉理解与规划能力的 AI，则可能承担更复杂的任务，例如：

跨系统整理数据

执行多步骤后台流程

在陌生界面中寻找操作路径

RPA 并不会立即被取代，但 AI 代理已经开始进入它们长期占据的自动化领域。

推理时计算：AI 学会“慢思考”

GPT-5.4 的另一项关键变化，是 Thinking 模式。这一模式并不是简单扩大模型规模，而是在推理阶段投入更多计算资源，从而提高复杂任务的可靠性。

这代表着大模型发展的一条重要路线：推理时计算（compute-at-inference）。过去十年，模型能力主要依赖训练阶段的大规模数据与算力，但随着预训练收益逐渐递减，越来越多公司开始把算力投入到推理阶段。

类似趋势也出现在其他 AI 公司，例如 Anthropic 的深度推理模式，以及 Google 在复杂任务中的推理系统。

这种模式的特点很明显：响应时间更长、计算成本更高，但复杂任务的成功率明显提高。在法律分析、财务建模或复杂决策任务中，这类“慢思考 AI”反而更接近真实的专业工作方式。

Tool Search：被低估的架构升级

相比百万 Token 与 computer-use，Tool Search 可能是这次发布中最容易被忽视的一项升级。

过去，当模型需要调用工具时，开发者通常必须把所有工具说明都加载进提示词中。这不仅占用上下文空间，也增加了 Token 成本。

Tool Search 改变了这一机制：模型可以在需要时检索工具定义，而不是预加载全部工具。

在多工具系统中，这种方式可显著减少工具相关的 Token 消耗。对于构建复杂 AI 系统的开发者而言，这类架构优化往往比单纯提升模型能力更重要。

因为真正的大规模 AI 应用，通常由几十甚至上百个工具共同组成。

AI 竞争的真正焦点正在改变

如果把这些变化放在一起观察，就会发现 AI 竞争的重心正在发生变化。

过去几年，大模型竞争主要集中在规模、参数与价格。但现在，竞争正在逐渐转向另一件事情：谁能让 AI 真正完成任务。

在这个维度上，不同公司的策略逐渐分化：

OpenAI：强调 AI 代理与执行能力

Anthropic：强调可靠推理与安全性

Google：强调工具生态与云基础设施

这场竞争的终点，很可能不是更聪明的聊天机器人，而是一种新的软件形态。

一种可以理解任务、规划步骤并执行操作的 AI 工作代理。

软件范式正在变化

从更长的上下文，到更强的推理，再到直接操作软件界面，大模型正在同时获得三种能力：理解信息、思考问题、执行操作。

当这三种能力结合在一起时，AI 就不再只是软件的一个接口，而可能逐渐成为新的软件平台。

在这种结构下，大模型不仅会改变搜索、写作或编程工具，还可能重新塑造企业软件的基本形态。

问题已经不再是 AI 能否理解工作。而是 AI 何时开始真正接管工作流程。（本文首发钛媒体App , 作者｜硅谷Tech news，编辑｜秦聪慧）

来源：https://www.163.com/dy/article/KNAVPGCG05118O92.html

调用鼠标上下文 gpt 数字员工 token

上一篇比亚迪甩出双王牌，燃油车最后防线即将失守？ 下一篇核心技术深耕指南：练就你的独家职场本领

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

GPT-5.4接入鼠标：100万Token实现AI数字员工

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

GPT-5.4接入鼠标：100万Token实现AI数字员工

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足 盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

罗永浩批苹果iOS 27创新不足盼新CEO改进