首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
GPT-5.4接入鼠标:100万Token实现AI数字员工

GPT-5.4接入鼠标:100万Token实现AI数字员工

热心网友
75
转载
2026-03-06


如果一个 AI 能够阅读整套项目文档,在复杂问题上进行长时间推理,并且自己操作电脑完成任务,它就不再只是一个聊天机器人。

它更像是一种新的软件形态。

随着 OpenAI 推出 GPT-5.4 Thinking 与 GPT-5.4 Pro,这种变化正在变得具体。100 万 Token 上下文、推理时计算模式,以及原生计算机操作能力,第一次在同一代模型中同时出现。

当这些能力开始汇合,大模型的角色也在发生转变——从回答问题,转向直接完成工作。

GPT-5.4:一次围绕“执行能力”的模型升级

2026 年 3 月初,硅谷再次进入密集的 AI 发布周期。

在多轮业内传闻之后,OpenAI 推出了 GPT-5.4 系列模型。与过去几次升级主要强化聊天体验或推理能力不同,这一版本的能力组合明显指向一个更实际的目标:让 AI 更直接地参与真实工作流程。


公开信息显示,模型的核心能力包括:最高 100 万 Token 上下文窗口、GPT-5.4 Thinking 推理模式、Computer-Use 原生计算机操作能力,以及 Tool Search 工具检索机制。这些能力并非单点突破,而是围绕“执行能力”的系统性升级。

在桌面任务基准 OSWorld benchmark 的测试中,模型完成任务的成功率约为 75%,略高于该 benchmark 的人类测试基线约 72%。而在职业任务评估 GDPval benchmark 中,模型在 44 种知识型工作任务中约 83% 的评分进入专家区间。


这些指标本身或许仍需要更多实际验证,但它们指向的趋势非常明确:AI 正在从信息处理工具变成任务执行系统。

长上下文:模型第一次能“读完整个项目”

企业在部署大模型时,一直面临一个结构性限制——上下文窗口。早期模型只能处理有限的信息量,这迫使企业构建复杂的 Retrieval-Augmented Generation(RAG)系统:文档被拆分、向量化、索引,再在查询时重新拼接给模型。

这种架构在过去两年成为 AI 工程的标准方案,但也带来了新的复杂度。数据被切块后,上下文关系容易丢失;检索系统本身也增加了延迟与维护成本。

GPT-5.4 将上下文窗口扩展到 100 万 Token。这意味着模型在单次任务中理论上可以处理完整代码库、长期财务记录,甚至整个项目文档集合。

RAG 并不会消失,因为权限控制、实时数据更新以及索引效率仍然是企业系统不可替代的一部分。但在很多分析型任务中,超长上下文确实降低了对复杂检索架构的依赖。

更重要的是,模型开始具备一种过去难以实现的能力:理解完整项目,而不是零散信息片段。

Computer-Use:AI 开始直接操作软件

如果说长上下文改变的是理解能力,那么 Computer-Use 改变的则是执行能力。

在这一模式下,模型可以通过视觉理解软件界面,并模拟鼠标点击、键盘输入以及应用导航等操作。这意味着 AI 不再只通过 API 调用系统,而是可以像用户一样直接操作软件界面。

这一变化对企业自动化领域尤其重要。过去二十年,大量企业流程自动化依赖 Robotic Process Automation(RPA)系统,其核心逻辑是通过脚本执行固定步骤,例如录入数据或在系统之间复制信息。

而具备视觉理解与规划能力的 AI,则可能承担更复杂的任务,例如:

跨系统整理数据

执行多步骤后台流程

在陌生界面中寻找操作路径

RPA 并不会立即被取代,但 AI 代理已经开始进入它们长期占据的自动化领域。

推理时计算:AI 学会“慢思考”

GPT-5.4 的另一项关键变化,是 Thinking 模式。这一模式并不是简单扩大模型规模,而是在推理阶段投入更多计算资源,从而提高复杂任务的可靠性。

这代表着大模型发展的一条重要路线:推理时计算(compute-at-inference)。过去十年,模型能力主要依赖训练阶段的大规模数据与算力,但随着预训练收益逐渐递减,越来越多公司开始把算力投入到推理阶段。

类似趋势也出现在其他 AI 公司,例如 Anthropic 的深度推理模式,以及 Google 在复杂任务中的推理系统。

这种模式的特点很明显:响应时间更长、计算成本更高,但复杂任务的成功率明显提高。在法律分析、财务建模或复杂决策任务中,这类“慢思考 AI”反而更接近真实的专业工作方式。

Tool Search:被低估的架构升级

相比百万 Token 与 computer-use,Tool Search 可能是这次发布中最容易被忽视的一项升级。

过去,当模型需要调用工具时,开发者通常必须把所有工具说明都加载进提示词中。这不仅占用上下文空间,也增加了 Token 成本。


Tool Search 改变了这一机制:模型可以在需要时检索工具定义,而不是预加载全部工具。

在多工具系统中,这种方式可显著减少工具相关的 Token 消耗。对于构建复杂 AI 系统的开发者而言,这类架构优化往往比单纯提升模型能力更重要。

因为真正的大规模 AI 应用,通常由几十甚至上百个工具共同组成。

AI 竞争的真正焦点正在改变

如果把这些变化放在一起观察,就会发现 AI 竞争的重心正在发生变化。

过去几年,大模型竞争主要集中在规模、参数与价格。但现在,竞争正在逐渐转向另一件事情:谁能让 AI 真正完成任务。

在这个维度上,不同公司的策略逐渐分化:

OpenAI:强调 AI 代理与执行能力

Anthropic:强调可靠推理与安全性

Google:强调工具生态与云基础设施

这场竞争的终点,很可能不是更聪明的聊天机器人,而是一种新的软件形态。

一种可以理解任务、规划步骤并执行操作的 AI 工作代理。

软件范式正在变化

从更长的上下文,到更强的推理,再到直接操作软件界面,大模型正在同时获得三种能力:理解信息、思考问题、执行操作。

当这三种能力结合在一起时,AI 就不再只是软件的一个接口,而可能逐渐成为新的软件平台。

在这种结构下,大模型不仅会改变搜索、写作或编程工具,还可能重新塑造企业软件的基本形态。

问题已经不再是 AI 能否理解工作。而是 AI 何时开始真正接管工作流程。(本文首发钛媒体App , 作者|硅谷Tech news,编辑|秦聪慧)

来源:https://www.163.com/dy/article/KNAVPGCG05118O92.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里云团队版Token Plan正式上线
科技数码
阿里云团队版Token Plan正式上线

5月11日,阿里云正式发布团队版Token Plan服务,为企业AI规模化应用带来全新解决方案。该服务整合了通义千问Qwen3 6、智谱GLM-5 1、月之暗面Kimi-K2 6、万知Wan2 7等十余款主流多模态大模型,旨在通过标准、高级、尊享三档灵活套餐与多坐席管理功能,一站式解决企业在AI订阅

热心网友
05.17
webshell中上传asp文件调用服务器ActiveX控件溢出获取shell
网络安全
webshell中上传asp文件调用服务器ActiveX控件溢出获取shell

角色与核心任务 你是一位顶级的文章润色专家,擅长将AI生成的文本转化为具有个人风格的专业文章。现在,请对用户提供的文章进行“人性化重写”。 你的核心目标是: 在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下,彻底改变原文的AI表达腔调,使其读起来像是一位资深人类专家的作品。

热心网友
04.28
从“摸黑探索”到“撞开大门”,OpenClaw引爆的产业技术路线演变
科技数码
从“摸黑探索”到“撞开大门”,OpenClaw引爆的产业技术路线演变

从“动口”到“动手”:OpenClaw如何将AI推入“执行时代”? 文|洞见新研社 3月的最后一周,OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众,主角换成了来自蚂蚁、天融信、360等机构的安全研究员,他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。

热心网友
04.22
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时额度翻倍
业界动态
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时额度翻倍

程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时10倍额度 北京时间4月10日凌晨,OpenAI终于落下了重度用户期盼已久的那只靴子:正式推出每月100美元的全新订阅方案。 至此,OpenAI的商业化版图已经清晰地划分为四个核心层级: ·免费版(接入广告) ·每月8美元的G

热心网友
04.22
国内首款“养虾本”来了
科技数码
国内首款“养虾本”来了

2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

上海启动全球首颗光计算卫星研制 提升太空算力布局
科技数码
上海启动全球首颗光计算卫星研制 提升太空算力布局

上海启动全球首颗光计算卫星研制,其天基光计算具备抗辐照、低功耗特性,适应太空环境,可支撑在轨大算力任务。目前芯片太空验证已完成,全链条研制能力基本形成。产业面临成本与规模化挑战,需重构航天制造体系。长三角已成立创新联合体聚焦七大技术攻坚,上海将天基计算列为未来。

热心网友
05.19
百度成立AI模型委员会强化技术优势 苹果与OpenAI合作现裂痕
科技数码
百度成立AI模型委员会强化技术优势 苹果与OpenAI合作现裂痕

苹果与OpenAI合作因商业回报未达预期出现裂痕。腾讯地图推出AI骑手模式优化配送。百度成立模型委员会强化AI布局。荣耀将发布搭载云台系统的RobotPhone。Anthropic拟以9000亿美元估值融资。阿里发布智能体开发工作台Qoder1 0。千问APP接入药监局数据。发那科与英伟达深化合作,利用AI加速机器人开发。

热心网友
05.19
图书管理软件有哪些实用推荐与使用心得分享
游戏资讯
图书管理软件有哪些实用推荐与使用心得分享

面对海量书籍资源,数字化管理工具至关重要。小满图书管理侧重会员与库存管理,适合书店。库存管理通轻量化,支持多货品进销存。藏书馆兼具藏书管理与数字阅读功能。移动图书馆对接高校资源,提供学术服务。个人图书馆专注个人知识收集与创作。各类软件功能各异,需根据核心需求选择。

热心网友
05.19
流畅好用的英文朗读软件推荐
游戏资讯
流畅好用的英文朗读软件推荐

英文朗读软件能有效辅助学习。推荐几款特色应用:全能型《朗读器》操作简便;《朗读者》结合翻译与朗读;《英文翻译》支持长文朗读;《朗读大师》擅长图像识别与发音反馈;《中英文翻译》提供系统化学习路径。根据需求选择工具并坚持练习,可提升理解与发音能力。

热心网友
05.19
飞机票购买软件推荐 这几款订机票APP实用又划算
游戏资讯
飞机票购买软件推荐 这几款订机票APP实用又划算

飞机是远距离出行的高效选择,提前购票可锁定行程并享受优惠。主流购票平台包括飞猪旅行、携程旅行、航班管家、美团、飞行卡和去哪儿旅行。这些应用不仅提供机票预订,还整合酒店、景点门票、本地生活等服务,满足用户对价格、一站式规划或特定优惠的不同需求。

热心网友
05.19