GPT-5.4接入鼠标:100万Token实现AI数字员工

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
如果一个 AI 能够阅读整套项目文档,在复杂问题上进行长时间推理,并且自己操作电脑完成任务,它就不再只是一个聊天机器人。
它更像是一种新的软件形态。
随着 OpenAI 推出 GPT-5.4 Thinking 与 GPT-5.4 Pro,这种变化正在变得具体。100 万 Token 上下文、推理时计算模式,以及原生计算机操作能力,第一次在同一代模型中同时出现。
当这些能力开始汇合,大模型的角色也在发生转变——从回答问题,转向直接完成工作。
GPT-5.4:一次围绕“执行能力”的模型升级
2026 年 3 月初,硅谷再次进入密集的 AI 发布周期。
在多轮业内传闻之后,OpenAI 推出了 GPT-5.4 系列模型。与过去几次升级主要强化聊天体验或推理能力不同,这一版本的能力组合明显指向一个更实际的目标:让 AI 更直接地参与真实工作流程。

公开信息显示,模型的核心能力包括:最高 100 万 Token 上下文窗口、GPT-5.4 Thinking 推理模式、Computer-Use 原生计算机操作能力,以及 Tool Search 工具检索机制。这些能力并非单点突破,而是围绕“执行能力”的系统性升级。
在桌面任务基准 OSWorld benchmark 的测试中,模型完成任务的成功率约为 75%,略高于该 benchmark 的人类测试基线约 72%。而在职业任务评估 GDPval benchmark 中,模型在 44 种知识型工作任务中约 83% 的评分进入专家区间。

这些指标本身或许仍需要更多实际验证,但它们指向的趋势非常明确:AI 正在从信息处理工具变成任务执行系统。
长上下文:模型第一次能“读完整个项目”
企业在部署大模型时,一直面临一个结构性限制——上下文窗口。早期模型只能处理有限的信息量,这迫使企业构建复杂的 Retrieval-Augmented Generation(RAG)系统:文档被拆分、向量化、索引,再在查询时重新拼接给模型。
这种架构在过去两年成为 AI 工程的标准方案,但也带来了新的复杂度。数据被切块后,上下文关系容易丢失;检索系统本身也增加了延迟与维护成本。
GPT-5.4 将上下文窗口扩展到 100 万 Token。这意味着模型在单次任务中理论上可以处理完整代码库、长期财务记录,甚至整个项目文档集合。
RAG 并不会消失,因为权限控制、实时数据更新以及索引效率仍然是企业系统不可替代的一部分。但在很多分析型任务中,超长上下文确实降低了对复杂检索架构的依赖。
更重要的是,模型开始具备一种过去难以实现的能力:理解完整项目,而不是零散信息片段。
Computer-Use:AI 开始直接操作软件
如果说长上下文改变的是理解能力,那么 Computer-Use 改变的则是执行能力。
在这一模式下,模型可以通过视觉理解软件界面,并模拟鼠标点击、键盘输入以及应用导航等操作。这意味着 AI 不再只通过 API 调用系统,而是可以像用户一样直接操作软件界面。
这一变化对企业自动化领域尤其重要。过去二十年,大量企业流程自动化依赖 Robotic Process Automation(RPA)系统,其核心逻辑是通过脚本执行固定步骤,例如录入数据或在系统之间复制信息。
而具备视觉理解与规划能力的 AI,则可能承担更复杂的任务,例如:
跨系统整理数据
执行多步骤后台流程
在陌生界面中寻找操作路径
RPA 并不会立即被取代,但 AI 代理已经开始进入它们长期占据的自动化领域。
推理时计算:AI 学会“慢思考”
GPT-5.4 的另一项关键变化,是 Thinking 模式。这一模式并不是简单扩大模型规模,而是在推理阶段投入更多计算资源,从而提高复杂任务的可靠性。
这代表着大模型发展的一条重要路线:推理时计算(compute-at-inference)。过去十年,模型能力主要依赖训练阶段的大规模数据与算力,但随着预训练收益逐渐递减,越来越多公司开始把算力投入到推理阶段。
类似趋势也出现在其他 AI 公司,例如 Anthropic 的深度推理模式,以及 Google 在复杂任务中的推理系统。
这种模式的特点很明显:响应时间更长、计算成本更高,但复杂任务的成功率明显提高。在法律分析、财务建模或复杂决策任务中,这类“慢思考 AI”反而更接近真实的专业工作方式。
Tool Search:被低估的架构升级
相比百万 Token 与 computer-use,Tool Search 可能是这次发布中最容易被忽视的一项升级。
过去,当模型需要调用工具时,开发者通常必须把所有工具说明都加载进提示词中。这不仅占用上下文空间,也增加了 Token 成本。

Tool Search 改变了这一机制:模型可以在需要时检索工具定义,而不是预加载全部工具。
在多工具系统中,这种方式可显著减少工具相关的 Token 消耗。对于构建复杂 AI 系统的开发者而言,这类架构优化往往比单纯提升模型能力更重要。
因为真正的大规模 AI 应用,通常由几十甚至上百个工具共同组成。
AI 竞争的真正焦点正在改变
如果把这些变化放在一起观察,就会发现 AI 竞争的重心正在发生变化。
过去几年,大模型竞争主要集中在规模、参数与价格。但现在,竞争正在逐渐转向另一件事情:谁能让 AI 真正完成任务。
在这个维度上,不同公司的策略逐渐分化:
OpenAI:强调 AI 代理与执行能力
Anthropic:强调可靠推理与安全性
Google:强调工具生态与云基础设施
这场竞争的终点,很可能不是更聪明的聊天机器人,而是一种新的软件形态。
一种可以理解任务、规划步骤并执行操作的 AI 工作代理。
软件范式正在变化
从更长的上下文,到更强的推理,再到直接操作软件界面,大模型正在同时获得三种能力:理解信息、思考问题、执行操作。
当这三种能力结合在一起时,AI 就不再只是软件的一个接口,而可能逐渐成为新的软件平台。
在这种结构下,大模型不仅会改变搜索、写作或编程工具,还可能重新塑造企业软件的基本形态。
问题已经不再是 AI 能否理解工作。而是 AI 何时开始真正接管工作流程。(本文首发钛媒体App , 作者|硅谷Tech news,编辑|秦聪慧)
相关攻略
快科技3月30日消息,小米最新 "龙虾 "Xiaomi miclaw封闭测试迎来新一轮机型扩容,新增REDMI K80系列、Xiaomi Pad 8 Pro、Xiaomi Pad 8、Xiaomi Pa
智通财经APP获悉,华鑫证券发布研报称,百度集团-SW(09888)通过将OpenClaw深度融入其核心流量入口与产品生态,在AI智能体应用的普及阶段占据了先发优势。其“应用入口+云平台+模型生态”
IT之家 3 月 30 日消息,阿里千问今晚发布全模态大模型 Qwen3 5-Omni。IT之家附核心亮点如下:无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频 Caption 生
证券时报记者 王小伟无形的海量Token(词元)顺着网线,卖到全球各地,就像有形的大宗商品通过路网销往全球一样——Token正在成为AI时代的“新石油”和“新集装箱”。随着Agent(智能体)时代的
快科技3月30日消息,微软Windows Shell产品负责人Tali Roth在社交平台确认,Windows 11搜索功能将迎来大改进,重点解决搜索结果排序混乱、网页内容干扰本地结果、界面信息过载
热门专题
热门推荐
小S的三个女儿受人关注,一家人的一举一动都能引起大家的讨论与吐槽。尤其是她的三个漂亮女儿,大女儿许曦文20岁,在南加州读大学。二女儿许韶恩18岁,开始在贵圈发展,许老三许曦恩14岁,也开始频繁露面。
IT之家 3 月 31 日消息,华擎 ASRock 现已推出两款幻影电竞系列显示器 PG27QFT2C 和 PG27QFT1B。两款型号拥有一致的核心规格,均采用 27 英寸 QHD (2560×1
3月31日消息,据报道,苹果20周年纪念版iPhone 20将采用1 1毫米极窄屏幕边框,搭配极致圆润的边缘处理与四曲面瀑布屏设计,整机视觉效果接近无缝玻璃面板。此次曝光的设计核心为真全面屏形态,为
QQ邮箱网页版最新最新地址是https: mail qq com,支持多方式快捷验证、跨终端实时同步、大文件智能传输、智能地址分类管理及多重安全防护。QQ邮箱登录入口正式 QQ邮
2026年3月30日,vivo于云南丽江正式发布vivo X300系列全新旗舰手机——vivo X300 Ultra、vivo X300s,重塑移动影像新高度。打破拍照与摄像的设备鸿沟,带来手机中的





