谷歌今天搞了个大动作——其人工智能生态系统迎来一次关键升级,原本处于测试阶段的“计算机使用”工具,现在被直接内置到了Gemini 3.5 Flash模型当中,不再依赖之前的2.5测试框架。这意味着什么?说白了,AI正在从一个只会聊天的“对话选手”,变成一个能真正帮你干活儿的“数字同事”。AI袋里(Agent)这个概念,之前总感觉是PPT上的愿景,现在算是正式上路了。
对于开发者来说,通过Gemini API就能直接调用3.5 Flash的原生能力去搭建智能袋里。这些袋里不像过去那样需要写一堆底层代码,它们的工作方式更像普通人类——通过看截图、理解画面上的视觉元素,直接可视化地去操作应用程序,从而自动执行各种复杂的桌面任务。这听起来是不是有点“科幻照进现实”的味道?
想想看,办公自动化、软件测试、跨平台数据整理,这些场景现在有了全新的解法。比如自动化浏览网页、填那些烦人的长表格、点击按钮,或者在桌面、移动端、浏览器环境里反复收集数据——这些重复性很高的工作,以后都可以交给AI去跑。为了让大家尽快上手,谷歌还在Browserbase上开放了实时演示空间,开发者可以直接去体验Gemini企业袋里平台的功能。

当然,把鼠标和键盘的控制权交给AI,安全问题肯定是绕不开的坎,尤其是间接指令注入这类风险。谷歌对此也做了准备,专门进行了针对性的对抗训练来强化模型的防御能力。与此同时,还同步推出了两款企业级安全系统:一个允许企业设置规则,要求AI在执行敏感或永久性更改操作之前,必须拿到人工的明确批准;另一个则能在检测到潜在攻击时,立即自动冻结正在运行的任务。这套组合拳,算是给桌面安全上了双保险。
配合这次模型升级,谷歌同日还发布了Chrome 149稳定版,里面新增了一个叫“从屏幕中选择”的功能。用户在浏览器的附件菜单里开启后,可以直接框选当前标签页中的图像或文本,瞬间就能把它们作为提示语丢给Gemini。对于经常需要基于网页内容提问的人来说,这个交互体验的提升相当直观。
把原生计算机使用工具集成到Gemini 3.5 Flash里,这一步棋的背后,折射出AI行业一个更值得关注的变化:大家不再一味追求把模型参数堆到极致,而是开始拼实际的工具使用和任务执行能力。这条路径一旦跑通,AI袋里在企业自动化和消费者场景中的普及速度会大大加快,人机交互和软件应用的形态也会被重新定义——更高级别的自主AI袋里,不再只是可能性,而是正在变成现实。
