2025年10月8日,谷歌推出一款新型人工智能模型,展示了其在浏览器环境中实现交互操作的最新进展。该模型名为“Gemini 2.5 计算机使用”,具备视觉理解与推理能力,能够解析用户指令并在标准网页界面中执行具体任务,例如填写表单、提交数据等操作。
这一技术使AI智能体可在原本为人类用户设计的界面中自主运行,适用于那些未提供API或自动化接口的系统。其潜在应用场景包括用户界面测试,以及访问仅面向人工操作的在线服务。此前类似能力已在部分内部项目中得到验证,例如通过AI代理在浏览器中完成复杂流程,如根据清单自动添加商品至购物车等。
此次发布紧随另一家公司在年度开发者活动上推出新一代AI助手功能之后。当前,多家技术企业正致力于开发能代表用户执行多步骤任务的AI代理。其中,已有公司于去年发布了支持“计算机使用”功能的AI模型,允许系统在数字环境中进行自主导航与操作。
谷歌同步发布了若干演示视频,直观呈现该模型在真实网页环境中的运行过程,视频内容已加速至正常速度的三倍以便展示。最新表示,该模型在多项网页及移动端基准测试中表现优于现有同类方案。值得注意的是,该模型目前仅限于浏览器内部操作,不具备对操作系统层面的控制能力。谷歌明确指出,该技术尚未针对桌面系统级控制进行优化,现阶段支持包括打开网页、输入文本、拖放元素在内的共13种基本操作。
目前,Gemini 2.5 计算机使用模型已通过Google AI Studio与Vertex AI平台向开发者开放。同时,Browserbase平台提供了在线体验入口,公众可实时观察模型执行诸如“完成一局2048游戏”或“浏览 Hacker News 热门话题”等任务的实际效果。
