游乐游手机版
首页/AI热点日报/热点详情

谷歌Gemini 3.5 Flash原生集成电脑操作打破多模型切换壁垒

类型:热点整理2026-06-30
谷歌 DeepMind 团队近日推出重大更新:将原生桌面级计算机操控能力直接嵌入 Gemini 3 5 Flash 模型。这意味着开发者只需调用单一模型,即可实现跨平台的视觉理解与交互,让 AI 智能体在浏览器、手机乃至桌面系统中自主识别界面、执行操作,彻底告别了过去“多模型来回切换、上下文手动同步

谷歌 DeepMind 团队近日推出重大更新:将原生桌面级计算机操控能力直接嵌入 Gemini 3.5 Flash 模型。这意味着开发者只需调用单一模型,即可实现跨平台的视觉理解与交互,让 AI 智能体在浏览器、手机乃至桌面系统中自主识别界面、执行操作,彻底告别了过去“多模型来回切换、上下文手动同步”的繁琐流程。

以往实现类似功能,通常需要单独构建计算机控制模型,开发者不得不在不同模型之间反复切换,并手动维护上下文状态,既繁琐又易出错。如今原生融合后,AI 在处理跨设备、长周期任务时,不再依赖外部协调机制——上下文全程保存在模型内部,显著降低了开发复杂度与集成成本。

上下文断裂成历史,“端到端连贯”成新基准

研究团队明确指出,制约 AI 智能体稳定运行的核心并非单个工具的能力上限,而是多模型协作时不可避免的上下文衰减与信息断层。就好比把一堆文件放在不同办公室,跑起来总得来回串门,时间一长肯定丢三落四。而谷歌此次将网页搜索、地图服务和本地桌面操作统一到同一模型架构中,所有子任务共享语义空间,上下文无缝流转——相当于将分散的办公楼群改造成一栋内部通道贯通的大厦,彻底规避了跨楼调度带来的延迟、误传与权限错配。

这种“全栈式工具内聚”的范式变革,从架构层面重塑了能力边界,有望系统性提升智能体的任务可靠性与端到端响应效率。简而言之,复杂流程的成功率与鲁棒性将迈上新台阶。

聚焦三大高价值场景,构建纵深安全防护体系

这个原生计算机操作能力将率先落地三个典型场景:一是需要连续运行数小时甚至数天不间断的自动化流程,如数据归档、报表生成;二是面向 UI 一致性的长期回归测试与兼容性验证;三是涉及跨软件协同的知识密集型办公任务,如资料整理、会议纪要生成与分发。这些场景对上下文持久性与操作连贯性要求极高,恰好匹配新技术的特性。

安全方面同样部署了多层次防御机制:包括面向真实操作系统环境的对抗样本训练、企业级敏感操作实时拦截策略,以及针对间接提示注入攻击的行为识别与阻断模块。面对开放、动态且难以预测的真实计算环境,这套组合防护方案旨在为企业用户划定一个既功能强大又可控可信的执行边界。

​打破多模型切换壁垒!谷歌将“电脑操作”原生塞进 Gemini 3.5 Flash

来源:https://www.php.cn/faq/2738518.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。