当 AI 真正“长”进浏览器,体验将如何颠覆?
如今,几乎人人都在使用 AI 工具,对吧?浏览器里开着侧边栏,提问、复制、粘贴,然后再问下一句。
说实话,这种交互真的称得上“AI 助手”吗?它更像是给浏览器挂了一个聊天窗口——你问一句,它答一句,然后你手动把答案搬运到需要的地方。一來一回,效率反而被切碎了。

直到看到 Gemini Nexus 这款开源 Chrome 插件,才发现 AI 真的可以“长”在浏览器里,而不是像挂件一样悬在侧边。它不是一个简单的对话框,而是真正融入你的每次点击、阅读和操作流程中。
不止于聊天,它直接替你执行任务
市面上多数 AI 插件,本质上只是一个问答面板。你提问,它回答。答完后,你仍需手动操作。
Gemini Nexus 的设计思路截然不同。它接入了 Google 的 Gemini 模型,并采用了一项名为 MCP(浏览器控制协议)的技术。简单来说:它不仅能理解你的指令,还能直接替你操控浏览器。
比如你直接说:“打开 GitHub,搜索 star 超过 1k 的 AI 项目,然后把每个项目的 README 总结好发到我邮箱。”
它可以自动完成整条流水线:打开 GitHub、执行搜索、逐一点进项目页面、提取内容、生成摘要、整理成简报。这早已不是聊天,而是让 AI 代为完成复杂任务。
三大核心亮点
1. 不再局限于侧边栏
当你在网页上选中一段文字时,工具栏会立刻弹出来。你可以一键总结、一键翻译、一键改写,甚至直接把处理结果回填到当前页面。无需复制粘贴,也不用切换窗口。
选中图片同样能处理:框选截图、OCR 识别文字、图片翻译、图像分析。基本就是你看到什么,直接处理什么。
2. 模型选择极其自由
它没有强制你只能使用某个模型。你可以选择 Web Client 模式,用自己的 Google 账号免费调用 Gemini 3 系列;也可以选 Official API 模式,直连 Gemini 官方 API,响应更快;还支持 OpenAI 兼容模式,能接入 GPT-4、Claude 等其他模型。
这相当于一个模型调度中枢,灵活性非常强。
3. 浏览器自动化能力出众
基于 MCP 技术,它能做的事情包括:打开页面、跳转网址、点击按钮、填写表单、拖拽元素、获取 DOM 结构、读取控制台日志、执行自定义 JavaScript。甚至可以连接外部 MCP 服务器来扩展更多能力。
这已经接近 Agent 级别的浏览器自动化体验。
安装方式
作为开源项目,安装步骤非常简单:前往 GitHub 下载 ZIP 包,解压,打开 chrome://extensions/,开启开发者模式,加载已解压的扩展即可。安装完成后,AI 输出的 Markdown、公式、代码块都会在沙箱环境中渲染,既美观又安全。
一句话总结
Gemini Nexus 的核心理念很明确:AI 不应是一个孤立的聊天窗口,而应该成为浏览器自身的一部分。你无需刻意寻找它,它就自然地嵌入你的操作流程中,随时帮你完成任务。
如果你早已厌倦复制、粘贴、切来切去的低效模式,这款项目确实值得尝试。有时候,真正优秀的技术,恰恰是那种你几乎感觉不到它存在的技术。
