首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌Gemini像素操控解析:DeepSeek-OCR2技术回应

谷歌Gemini像素操控解析:DeepSeek-OCR2技术回应

热心网友
43
转载
2026-01-28


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:定慧

【新智元导读】谷歌Google DeepMind刚刚推出新能力,用代码赋予Gemini 3 Flash「法眼」。

没想到吧,Google DeepMind刚刚为Gemini 3 Flash推出了一个重量级新能力:Agentic Vision(智能体视觉)。(难道是被DeepSeek-OCR2给刺激到了?)

可以看到,这项技术彻底改变了大语言模型理解世界的方式:

从过去的「猜」变成了如今的「深度调查」。


该能力由Google DeepMind团队推出,核心产品经理Rohan Doshi表示,传统的AI模型在处理图片时,往往只是静态地看一眼。

如果图片里的细节太小,比如微处理芯片上的序列号或者远处模糊的路牌,模型往往只能靠「猜」。

而Agentic Vision引入了一个「思考-行动-观察」(Think-Act-Observe)的闭环:

模型不再是被动接收像素,而是会根据用户的需求,主动编写Python代码来操纵图像。


这一能力直接让Gemini 3 Flash在各类视觉基准测试中实现了5%到10%的性能跨越。


Agentic Vision:智能体视觉新前沿

DeepMind探索的方法概括起来就是:利用代码执行作为视觉推理的工具,将被动的视觉理解转化为主动的智能体过程。

什么意思呢?我们知道,目前的SOTA模型通常是一次性处理图像。

但Agentic Vision引入了一个循环:

1.思考(Think):模型分析用户查询和初始图像,制定多步计划。

2.行动(Act):模型生成并执行Python代码来主动操纵图像(如裁剪、旋转、标注)或分析图像(如运行计算、计数边界框等)。

3.观察(Observe):变换后的图像被追加到模型的上下文窗口中。这允许模型在生成最终响应之前,以更好的上下文检查新数据。


Agentic Vision实战

通过在API中启用代码执行,开发者可以解锁许多新行为。

Google AI Studio中的演示应用已经展示了这一点。

1. 缩放与检查(Zooming and inspecting)

Gemini 3 Flash被训练为在检测到细粒度细节时进行隐式缩放。

PlanCheckSolver.com是一个AI驱动的建筑计划验证平台,通过启用Gemini 3 Flash的代码执行功能来迭代检查高分辨率输入,将准确率提高了5%。

后台日志视频展示了这个智能体过程:Gemini 3 Flash生成Python代码来裁剪和分析特定的补丁(例如屋顶边缘或建筑部分)作为新图像。

通过将这些裁剪图追加回其上下文窗口,模型在视觉上确立其推理,以确认是否符合复杂的建筑规范。


2. 图像标注(Image annotation)

Agentic Vision允许模型通过标注图像与环境交互。

Gemini 3 Flash不仅仅是描述它看到的内容,还可以执行代码直接在画布上绘制以确立其推理。

在下面的例子中,模型被要求数Gemini应用中一只手上的数字。

为了避免计数错误,它使用Python在它识别的每个手指上绘制边界框和数字标签。

这种「视觉草稿纸」确保其最终答案是基于像素级的完美理解。


3. 视觉数学与绘图(Visual math and plotting)

Agentic Vision可以解析高密度表格并执行Python代码来可视化发现。

标准LLM在多步视觉算术中经常产生幻觉。

Gemini 3 Flash通过将计算放到到确定性的Python环境中来绕过这个问题。

在Google AI Studio的演示应用示例中,模型识别原始数据,编写代码将之前的SOTA归一化为1.0,并生成专业的Matplotlib条形图。这用可验证的执行取代了概率性猜测。


如何上手

Agentic Vision今天已通过Google AI Studio和Vertex AI中的Gemini API提供。

它也开始在Gemini应用中推出(通过从模型下拉菜单中选择Thinking访问)。


以下是一个简单的Python代码示例,展示了如何调用这一能力:

print(response.text)

未来展望

Google表示,Agentic Vision才刚刚开始。

目前,Gemini 3 Flash擅长隐式决定何时放大微小细节。虽然其他功能(如旋转图像或执行视觉数学)目前需要显式的提示引导来触发,但Google正在努力在未来的更新中使这些行为完全隐式化。

此外,Google还在探索如何为Gemini模型通过更多工具(包括网络和反向图像搜索)来进一步确立其对世界的理解,并计划将此功能扩展到Flash以外的其他模型尺寸。

彩蛋:难道是因为DeepSeek?

这就很有意思了。

DeepSeek前脚刚开源了堪称「OCR 2.0」的DeepSeek-OCR,谷歌后脚就发布了Gemini 3的Agentic Vision。

这真的是巧合吗?

我们不妨大胆猜测,谷歌这次的「深夜炸场」,极有可能是被DeepSeek逼出来的。

理由有三:

1.时间点的惊人巧合

1月27日,DeepSeek刚刚发布了DeepSeek-OCR2,搭载核心黑科技DeepEncoder V2。它抛弃了传统的机械扫描,让AI学会了像人类一样「按逻辑顺序阅读」,仅用几百个Token就实现了对复杂排版和图表的完美理解。

谷歌同一天立马拿出Agentic Vision,仿佛在这场「视觉军备竞赛」中隔空喊话:「你们让AI看懂逻辑,我们直接让AI上手操作」。

2.技术路线的巅峰对决

DeepSeek-OCR2走的是「内功流」,通过DeepEncoder V2模拟人类的视觉注意力机制,动态重组图像信息,把「看」这个动作做到了极致的轻量化和逻辑化。

而谷歌的Agentic Vision走的是「外设流」,也就是「不光要看清,还要能动手」。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。

3.争夺视觉AI定义的终局

DeepSeek-OCR2证明了即便是3B的小模型,只要「视觉逻辑」对路,也能吊打大模型。谷歌则试图用「代码执行」来降维打击:你视觉再好也是「看」,我能写代码验证才是「真懂」。

这场仗,本质上是谁能重新定义「机器视觉」——是极致的感知,还是全能的交互?

不管是不是「应激反应」,这场神仙打架,最后爽的还是我们程序员。

参考资料:

https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412


来源:https://www.163.com/dy/article/KKCKKO010511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情?
业界动态
从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情?

从「集体暴跌」到「双轨分化」:一篇论文误读如何撕开DDR真实行情? 最近,DDR内存市场冷不丁地打了个“寒颤”。主流规格的内存条价格普遍下滑了20%到30%,这个幅度让不少市场参与者都感到意外。 要知道,就在不久前,现货市场还沿着高位运行的惯性在前进。可转眼之间,市场就调转了方向,渠道报价和存储策略

热心网友
04.22
谷歌也急了
业界动态
谷歌也急了

谷歌组建AI编程突击队,全力追赶Agent技术差距 4月20日,科技媒体The Information的一则报道引发业界震动:谷歌已紧急组建一支内部“突击队”,旨在全力提升其人工智能编程能力。几乎同一时间,联合创始人谢尔盖·布林在一份内部备忘录中,向DeepMind团队下达了明确指令——必须“果断转

热心网友
04.22
Mythos逼谷歌再拉红色警报,布林连夜成立Coding突击队
业界动态
Mythos逼谷歌再拉红色警报,布林连夜成立Coding突击队

谷歌成立AI编程突击队,全力追赶Claude Mythos Claude Mythos的横空出世,无疑在AI编程领域投下了一枚震撼弹。其展现出的卓越代码生成与复杂任务处理能力,甚至让开发方Anthropic自身都曾有过犹豫。最终,这款被冠以“神话”之名的AI编程模型,以超出业界预期的强势姿态登场,让

热心网友
04.22
谷歌员工喜提全新智能体“Smith”:与《黑客帝国》反派同名,火到官方限制访问
AI
谷歌员工喜提全新智能体“Smith”:与《黑客帝国》反派同名,火到官方限制访问

谷歌员工喜提全新智能体“Smith”:与《黑客帝国》反派同名,火到官方限制访问 3月27日晚间,《商业内幕》的一则报道,揭开了谷歌内部一场静悄悄的效率革命。消息来自多位知情人士:谷歌员工正在密集使用一款内部代号为“Agent Smith”的AI工具。这工具本事不小,能自动处理包括编程在内的多项任务。

热心网友
04.22
ChatGPT Images 2.0发布!碾压谷歌Nano Banana,设计真要完了
AI
ChatGPT Images 2.0发布!碾压谷歌Nano Banana,设计真要完了

ChatGPT Images 2 0:从“AI渲染”到“策略性设计”的进化 编辑:Panda、Youli 北京时间凌晨三点,一场备受瞩目的直播准时开启。OpenAI正式揭晓了其视觉生成模型的最新力作——ChatGPT Images 2 0。 直播链接:https: openai com zh-Ha

热心网友
04.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本
手机教程
腾讯:QQ 将全面接入微信小程序,建议开发者尽快迁移降低维护成本

腾讯生态整合新动向:QQ全面接入微信小程序 7月1日,腾讯QQ小程序开发者平台发布了一项重要更新。核心内容是,为了帮助开发者降低双端开发与维护成本,QQ将全面接入微信小程序体系。这意味着,未来用户可以直接在QQ内搜索并打开微信小程序。 对于现有的存量QQ小程序,此次调整并未“一刀切”。它们目前仍可正

热心网友
04.22
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6
手机教程
天玑9600/9600 Pro双芯齐发:5GHz主频史无前例 硬刚高通骁龙8E6

下半年芯片市场巅峰对决提前揭幕 今年下半年,全球芯片市场的战火将空前炽热。两位重量级选手——联发科与高通,已经准备好亮出各自的王牌。天玑9600系列与骁龙8E6系列,这两大迭代旗舰平台的正面交锋,注定会成为今年科技行业最值得关注的戏码。 双芯策略:精准卡位旗舰市场 有意思的是,联发科这次玩了个新花样

热心网友
04.22
微信好友申请为何能通过搜索qq号添加
手机教程
微信好友申请为何能通过搜索qq号添加

在当今数字化社交的时代,微信已成为人们日常沟通交流的重要工具。不少人都发现,微信好友申请居然可以通过搜索 qq 号来添加,这背后有着诸多有趣的原因和便利之处。 一、社交关系的延续与拓展 要知道,微信与QQ同属腾讯旗下,两者之间存在着千丝万缕的联系。很多用户的社交关系其实根植于QQ时代,那些好友列表里

热心网友
04.22
高德地图如何更改定位
手机教程
高德地图如何更改定位

高德地图如何更改定位?三种方法详解及注意事项 无论是日常通勤、外出旅行还是朋友相聚,高德地图已经成了我们依赖的“导航神器”,精准定位和路线规划是其核心功能。不过,现实场景有时会有点特殊——比如,你可能需要模拟一个位置来测试应用,或者在某个游戏中“签到”,又或者只是想和朋友开个无伤大雅的玩笑。这个时候

热心网友
04.22
巧学宝app如何绑定手机号
手机教程
巧学宝app如何绑定手机号

巧学宝App绑定手机号全程指南 在巧学宝App上完成手机号绑定,是解锁其完整功能的关键一步。这个看似简单的操作,能为你后续的学习之旅带来不少实实在在的便利。那么,该如何快速搞定呢?下面这张流程图,能帮你一眼看清完整的操作路径。 第一步:进入个人中心 首先,打开你的巧学宝App。进入主界面后,注意力可

热心网友
04.22