谈到与浏览器交互方式的悄然变革,Chrome 149 的这次更新绝对值得关注。谷歌在这款最新版浏览器中,首次将 Gemini 3.5 Flash 模型直接整合进原生环境,并带来了一款极具现场感的新交互功能——"从屏幕选择"。
顾名思义,该功能的操作逻辑直观易懂:用户可在屏幕上自由框选任意区域,其中的图像或文本即刻转化为与 AI 对话的上下文。对于开发者和普通用户而言,这意味着无需频繁切换模型或调整工具,即可在浏览网页过程中实现一次流畅的 AI 协作体验。

告别全页上传,将目光聚焦于屏幕关键片段
根据谷歌官方的说明,启用 Chrome 内置的 Gemini 功能后,用户只需通过鼠标拖拽,即可精准锁定网页上的特定局部区域。系统会自动截取该区域作为视觉或文本输入,无缝融入当前提问,最终构建完整的多模态指令。
这套机制在表面上与 Google Lens 的视觉识别路径有些相似,但核心区别在于:它不再跳转至传统搜索页面,而是直接将选中内容送入对话式 AI 引擎。这意味着模型能够基于用户浏览的真实界面语境,输出更具针对性的专业回应。直观感受是,整个交互过程变得连贯而自然。
覆盖高频使用场景,智能交互正式迈向"端侧"时代
该功能对日常使用场景的拓展,远比想象中更为实在。例如,在电商页面上同时框选多款运动鞋,AI 可结合用户偏好与产品参数直接给出推荐;面对专业报告中的复杂统计图表,划出图示部分即可获得通俗易懂的解读;甚至可以将页面上的某段 UI 设计圈出,让 AI 分析并提供优化建议或风格延展方案。
更值得关注的是,Gemini 3.5 Flash 这次还深度集成了本地化的计算机操作能力。这意味着,它不仅能理解屏幕内容,还能在浏览器环境内自主执行一系列操作,例如访问链接、填写表单、点击控件、抓取数据等跨越多个页面的复杂任务。这已不只是"看"的层面,而是真正实现了"所见即所控"的智能协同。
