谷歌Gemini像素操控解析:DeepSeek-OCR2技术回应

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:定慧
【新智元导读】谷歌Google DeepMind刚刚推出新能力,用代码赋予Gemini 3 Flash「法眼」。
没想到吧,Google DeepMind刚刚为Gemini 3 Flash推出了一个重量级新能力:Agentic Vision(智能体视觉)。(难道是被DeepSeek-OCR2给刺激到了?)
可以看到,这项技术彻底改变了大语言模型理解世界的方式:
从过去的「猜」变成了如今的「深度调查」。

该能力由Google DeepMind团队推出,核心产品经理Rohan Doshi表示,传统的AI模型在处理图片时,往往只是静态地看一眼。
如果图片里的细节太小,比如微处理芯片上的序列号或者远处模糊的路牌,模型往往只能靠「猜」。
而Agentic Vision引入了一个「思考-行动-观察」(Think-Act-Observe)的闭环:
模型不再是被动接收像素,而是会根据用户的需求,主动编写Python代码来操纵图像。

这一能力直接让Gemini 3 Flash在各类视觉基准测试中实现了5%到10%的性能跨越。

Agentic Vision:智能体视觉新前沿
DeepMind探索的方法概括起来就是:利用代码执行作为视觉推理的工具,将被动的视觉理解转化为主动的智能体过程。
什么意思呢?我们知道,目前的SOTA模型通常是一次性处理图像。
但Agentic Vision引入了一个循环:
1.思考(Think):模型分析用户查询和初始图像,制定多步计划。
2.行动(Act):模型生成并执行Python代码来主动操纵图像(如裁剪、旋转、标注)或分析图像(如运行计算、计数边界框等)。
3.观察(Observe):变换后的图像被追加到模型的上下文窗口中。这允许模型在生成最终响应之前,以更好的上下文检查新数据。

Agentic Vision实战
通过在API中启用代码执行,开发者可以解锁许多新行为。
Google AI Studio中的演示应用已经展示了这一点。
1. 缩放与检查(Zooming and inspecting)
Gemini 3 Flash被训练为在检测到细粒度细节时进行隐式缩放。
PlanCheckSolver.com是一个AI驱动的建筑计划验证平台,通过启用Gemini 3 Flash的代码执行功能来迭代检查高分辨率输入,将准确率提高了5%。
后台日志视频展示了这个智能体过程:Gemini 3 Flash生成Python代码来裁剪和分析特定的补丁(例如屋顶边缘或建筑部分)作为新图像。
通过将这些裁剪图追加回其上下文窗口,模型在视觉上确立其推理,以确认是否符合复杂的建筑规范。

2. 图像标注(Image annotation)
Agentic Vision允许模型通过标注图像与环境交互。
Gemini 3 Flash不仅仅是描述它看到的内容,还可以执行代码直接在画布上绘制以确立其推理。
在下面的例子中,模型被要求数Gemini应用中一只手上的数字。
为了避免计数错误,它使用Python在它识别的每个手指上绘制边界框和数字标签。
这种「视觉草稿纸」确保其最终答案是基于像素级的完美理解。

3. 视觉数学与绘图(Visual math and plotting)
Agentic Vision可以解析高密度表格并执行Python代码来可视化发现。
标准LLM在多步视觉算术中经常产生幻觉。
Gemini 3 Flash通过将计算放到到确定性的Python环境中来绕过这个问题。
在Google AI Studio的演示应用示例中,模型识别原始数据,编写代码将之前的SOTA归一化为1.0,并生成专业的Matplotlib条形图。这用可验证的执行取代了概率性猜测。

如何上手
Agentic Vision今天已通过Google AI Studio和Vertex AI中的Gemini API提供。
它也开始在Gemini应用中推出(通过从模型下拉菜单中选择Thinking访问)。

以下是一个简单的Python代码示例,展示了如何调用这一能力:
print(response.text)
未来展望
Google表示,Agentic Vision才刚刚开始。
目前,Gemini 3 Flash擅长隐式决定何时放大微小细节。虽然其他功能(如旋转图像或执行视觉数学)目前需要显式的提示引导来触发,但Google正在努力在未来的更新中使这些行为完全隐式化。
此外,Google还在探索如何为Gemini模型通过更多工具(包括网络和反向图像搜索)来进一步确立其对世界的理解,并计划将此功能扩展到Flash以外的其他模型尺寸。
彩蛋:难道是因为DeepSeek?
这就很有意思了。
DeepSeek前脚刚开源了堪称「OCR 2.0」的DeepSeek-OCR,谷歌后脚就发布了Gemini 3的Agentic Vision。
这真的是巧合吗?
我们不妨大胆猜测,谷歌这次的「深夜炸场」,极有可能是被DeepSeek逼出来的。
理由有三:
1.时间点的惊人巧合
1月27日,DeepSeek刚刚发布了DeepSeek-OCR2,搭载核心黑科技DeepEncoder V2。它抛弃了传统的机械扫描,让AI学会了像人类一样「按逻辑顺序阅读」,仅用几百个Token就实现了对复杂排版和图表的完美理解。
谷歌同一天立马拿出Agentic Vision,仿佛在这场「视觉军备竞赛」中隔空喊话:「你们让AI看懂逻辑,我们直接让AI上手操作」。
2.技术路线的巅峰对决
DeepSeek-OCR2走的是「内功流」,通过DeepEncoder V2模拟人类的视觉注意力机制,动态重组图像信息,把「看」这个动作做到了极致的轻量化和逻辑化。
而谷歌的Agentic Vision走的是「外设流」,也就是「不光要看清,还要能动手」。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。
3.争夺视觉AI定义的终局
DeepSeek-OCR2证明了即便是3B的小模型,只要「视觉逻辑」对路,也能吊打大模型。谷歌则试图用「代码执行」来降维打击:你视觉再好也是「看」,我能写代码验证才是「真懂」。
这场仗,本质上是谁能重新定义「机器视觉」——是极致的感知,还是全能的交互?
不管是不是「应激反应」,这场神仙打架,最后爽的还是我们程序员。
参考资料:
https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412

相关攻略
新智元报道编辑:KingHZ【新智元导读】从拦截彼得·蒂尔、警告马斯克,到如今公开说「必须有适应能力」,哈萨比斯史诗级转身:AI安全窗口正在永久关闭,他不再幻想制度,而是赌上全部身家——赌影响力,赌
智东西编译 佳扬编辑 云鹏智东西3月30日消息,据彭博社报道,苹果正计划为语音助手Siri解锁第三方AI服务接入权限,并筹备在即将发布的iOS 27操作系统中,对Siri进行升级。此前,Siri已通
这项由谷歌DeepMind阿姆斯特丹团队完成的开创性研究发表于2026年3月的arXiv预印本平台(论文编号:arXiv:2603 20155v1),为人工智能文本生成技术带来了革命性突破。有兴趣深
当你在网上购物时遇到复杂的订单查询,或者需要在企业内部系统中完成多步骤的数据录入工作时,你是否想过让AI来帮你完成这些繁琐的任务?Google DeepMind的研究团队最近发表了一项令人瞩目的研究
OpenAI曾将视频生成工具Sora定位为继ChatGPT之后最重要的消费级产品,如今却在向公众开放不足六个月后骤然叫停。这一结局或许说明:在算力稀缺、竞争加剧的AI赛道上,持续烧钱却无法变现的产品
热门专题
热门推荐
3月30日消息,今晚除了手机之外,vivo还发布了全新的旗舰平板——vivo Pad6 Pro。行业首发13 2英寸4K原彩屏,分辨率3840×2160,347PPI,支持1-144Hz LTPS自
WPS表格中提取括号内容有四种方法:一、单对英文小括号用FIND+MID;二、中英文括号通用需SUBSTITUTE预处理;三、多对括号取最后一对需REVERSESTRING反向查找
3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌
电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末
白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党





