谷歌发布Gemini3.5Flash 原生集成计算机使用工具替代2.5框架_AI热点日报

谷歌发布Gemini3.5Flash 原生集成计算机使用工具替代2.5框架

类型：热点整理2026-06-30

谷歌今天搞了个大动作——其人工智能生态系统迎来一次关键升级，原本处于测试阶段的“计算机使用”工具，现在被直接内置到了Gemini 3 5 Flash模型当中，不再依赖之前的2 5测试框架。这意味着什么？说白了，AI正在从一个只会聊天的“对话选手”，变成一个能真正帮你干活儿的“数字同事”。AI袋里（A

谷歌今天搞了个大动作——其人工智能生态系统迎来一次关键升级，原本处于测试阶段的“计算机使用”工具，现在被直接内置到了Gemini 3.5 Flash模型当中，不再依赖之前的2.5测试框架。这意味着什么？说白了，AI正在从一个只会聊天的“对话选手”，变成一个能真正帮你干活儿的“数字同事”。AI袋里（Agent）这个概念，之前总感觉是PPT上的愿景，现在算是正式上路了。

对于开发者来说，通过Gemini API就能直接调用3.5 Flash的原生能力去搭建智能袋里。这些袋里不像过去那样需要写一堆底层代码，它们的工作方式更像普通人类——通过看截图、理解画面上的视觉元素，直接可视化地去操作应用程序，从而自动执行各种复杂的桌面任务。这听起来是不是有点“科幻照进现实”的味道？

想想看，办公自动化、软件测试、跨平台数据整理，这些场景现在有了全新的解法。比如自动化浏览网页、填那些烦人的长表格、点击按钮，或者在桌面、移动端、浏览器环境里反复收集数据——这些重复性很高的工作，以后都可以交给AI去跑。为了让大家尽快上手，谷歌还在Browserbase上开放了实时演示空间，开发者可以直接去体验Gemini企业袋里平台的功能。

当然，把鼠标和键盘的控制权交给AI，安全问题肯定是绕不开的坎，尤其是间接指令注入这类风险。谷歌对此也做了准备，专门进行了针对性的对抗训练来强化模型的防御能力。与此同时，还同步推出了两款企业级安全系统：一个允许企业设置规则，要求AI在执行敏感或永久性更改操作之前，必须拿到人工的明确批准；另一个则能在检测到潜在攻击时，立即自动冻结正在运行的任务。这套组合拳，算是给桌面安全上了双保险。

配合这次模型升级，谷歌同日还发布了Chrome 149稳定版，里面新增了一个叫“从屏幕中选择”的功能。用户在浏览器的附件菜单里开启后，可以直接框选当前标签页中的图像或文本，瞬间就能把它们作为提示语丢给Gemini。对于经常需要基于网页内容提问的人来说，这个交互体验的提升相当直观。

把原生计算机使用工具集成到Gemini 3.5 Flash里，这一步棋的背后，折射出AI行业一个更值得关注的变化：大家不再一味追求把模型参数堆到极致，而是开始拼实际的工具使用和任务执行能力。这条路径一旦跑通，AI袋里在企业自动化和消费者场景中的普及速度会大大加快，人机交互和软件应用的形态也会被重新定义——更高级别的自主AI袋里，不再只是可能性，而是正在变成现实。

来源：https://caip.org.cn/news/detail?id=47160

Gemini

延伸阅读

补充最近整理过的热点入口。

谷歌发布Gemini3.5Flash 原生集成计算机使用工具 替代2.5框架

相关热点

延伸阅读

谷歌发布Gemini3.5Flash 原生集成计算机使用工具替代2.5框架