谷歌推出Gemini 2.5计算机使用模型:聚焦浏览器交互,助力AI智能体操作
谷歌近期对外展示了其正在研发的全新人工智能模型——Gemini 2.5 Computer Use。这款模型的核心能力在于,能够通过浏览器分析并处理网络内容,模拟人类用户在传统界面中执行各类操作。其技术亮点在于融合了视觉理解与逻辑推理,可精准解析用户指令并完成表单填写、信息提交等任务。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该模型的应用场景涵盖两大领域:一是自动化测试用户界面,验证交互设计的合理性;二是操作仅面向人类用户开发的系统,尤其针对未开放API接口的封闭平台。此前,谷歌已在AI Mode智能体功能和“Mariner”研究项目中应用类似技术,例如通过浏览器自动根据食材清单采购商品。
在行业动态方面,谷歌此举与竞争对手形成直接对话。OpenAI在年度开发者日次日宣布升级ChatGPT智能体功能,强化其代理执行复杂任务的能力;而Anthropic公司早在去年就推出了Claude AI模型的计算机操作版本。三家科技巨头在AI代理技术领域的竞争愈发激烈。
谷歌公布的演示视频显示,其计算机使用模型在加速三倍播放的条件下,仍能流畅完成网页浏览、文本输入、元素拖放等13项预设操作。技术团队强调,该模型严格限定于浏览器环境运行,不会触达桌面操作系统层级,目前尚未针对系统级控制进行优化。基准测试数据显示,其在多网页和移动端场景中的表现优于现有主流方案。
开发者可通过Google AI Studio和Vertex AI平台获取该模型,Browserbase在线演示环境则提供了直观体验入口。用户可实时观察模型执行“玩2048游戏”“浏览Hacker News热门话题”等动态任务,直观感受其交互能力。这种技术突破为AI代理在消费级场景的落地开辟了新路径。
热门专题
热门推荐
红米Note 11 Pro系统升级,为何坚持要求连接Wi-Fi? 当红米Note 11 Pro收到MIUI或澎湃OS的系统更新推送时,官方总会明确提示:整个过程请在Wi-Fi网络环境下完成。这项要求并非随意设定,而是基于清晰的技术与体验考量。一次完整的系统升级包,其大小通常在2GB至4GB之间。如果
小米13 Ultra的NFC功能深度解析:它如何重新定义“全场景智能交互”? 在旗舰手机领域,NFC功能看似已成为标配,但体验却千差万别。小米13 Ultra所搭载的全功能NFC方案,在“全能”与“好用”两个维度上树立了新的标杆。它不仅无缝集成了公交卡模拟、门禁卡复制、数字车钥匙等核心生活服务,更全
嵌入式消毒柜电源插座安装指南:隐蔽式布局提升安全与美观 在规划嵌入式消毒柜的安装方案时,电源插座的布局方式直接影响到最终的整体效果与安全性。正确的做法是避免插座外露,采用隐蔽式安装。根据国家《住宅厨房设计规范》及主流厨电品牌的安装标准,推荐将插座预留在消毒柜后方或侧方的墙体内部,安装高度宜控制在距地
是的,魔音(Beats)耳机充电状态一目了然,指示灯明确显示 当你为Beats头戴式耳机充电时,如何判断它是否已经充满?答案就藏在机身自带的五段式LED电量指示灯里。在充电过程中,这排指示灯会持续闪烁,实时反馈充电进度。一旦所有五个指示灯全部转为稳定常亮、不再闪烁,即代表电池已完全充满。整个充电周期
博朗剃须刀型号全解析:从编码规则到选购技巧的终极指南 面对博朗剃须刀复杂的字母数字组合感到困惑?实际上,其型号命名体系逻辑严谨,是用户选购的核心依据。简单来说,型号首位的数字(1、3、5、7、9)直接代表产品系列,数字越大,通常意味着技术越先进、功能越全面、定位越高端。例如,顶级的9系旗舰机型普遍搭





