首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与

视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与

热心网友
65
转载
2026-05-20

就在人们还在为ChatGPT Images 2.0的惊艳表现而惊叹时,谷歌DeepMind的一篇重磅论文,为AI视觉领域投下了一枚“深水冲击波”。这篇题为《Image Generators are Generalist Vision Learners》的研究,系统性地证实了一个许多研究者心中早有预感、却一直未被完全验证的直觉:强大的图像生成器,本身就是更强大的通用视觉学习器

这背后是一个简单而深刻的逻辑:如果一个模型能够根据文本提示,生成高保真、语义精确的图像,那么它必然已经深刻理解了物体的形状、结构和空间关系。这种通过“创造”来“理解”的能力,是否足以让它胜任其他视觉任务?DeepMind的答案是肯定的。

他们基于当前顶尖的图像生成模型Nano Banana Pro,构建了一个名为Vision Banana的通用模型。结果令人震惊:这个“跨界”选手在图像分割、深度估计等一系列核心视觉任务上,其零样本(zero-shot)性能竟然媲美甚至超越了那些为特定任务量身定制的专家模型,比如分割领域的标杆Segment Anything Model 3,以及深度估计的王者Depth Anything系列。

论文作者之一Shangbang Long在社交媒体上分享这一成果时,难掩兴奋。而知名研究者谢赛宁更是连发数条推文强调其里程碑意义:一个单一的多模态通用模型,首次在底层感知任务上全面超越了顶尖的领域专用模型。这意味着,过去被视为截然不同的视觉问题,如今可以通过简单的提示词,在同一个系统下统一解决。

研究背景:一个由来已久的猜想

“生成即理解”,这个想法在AI研究圈里盘旋已久。道理似乎不言自明:不会“看”,怎能“画”?然而,现实却与直觉存在落差。长期以来,视觉表征学习的主流路径并非生成式建模,而是有监督的判别式学习、对比学习等。尽管早期的生成式视觉预训练展现出潜力,但其效果始终未能超越非生成式模型。

反观自然语言处理(NLP)领域,局面早已被改写。GPT系列模型已经证明,通过让模型预测下一个词(token)这种生成式预训练,大语言模型(LLM)能够涌现出强大的语言理解和推理能力。那么,一个自然而然的问题被提了出来:图像生成,能否扮演与文本生成类似的角色,成为训练通用视觉模型的“终极预训练任务”?

核心方法:把一切视觉任务都“画”出来

Vision Banana的实现方法,巧妙得令人叫绝。研究团队没有给Nano Banana Pro这个生成模型嫁接任何用于检测或分割的专用网络结构,也没有改动其底层架构。他们的核心思路是:将所有视觉感知任务的输出,全部“伪装”成RGB图像

具体来说,他们在原始的图像生成训练数据中,混入了一小部分带有任务指令的视觉数据,对模型进行轻量级的指令微调。关键在于,他们教导模型将任务输出直接“画”成一张图。

例如,在做语义分割时,提示词会是:“把图中的滑板涂成纯黄色 <255, 255, 0>”。模型便会生成一张RGB图像,其中滑板区域被渲染成指定的黄色。之后,只需简单地提取对应颜色的像素,就能得到精确的分割掩码。

而在处理更具挑战性的单目度量深度估计时,设计则更为精妙。深度值范围是[0, ∞),而RGB色彩空间是有限的[0, 1]^3立方体。如何建立两者间严格可逆的映射?研究团队设计了一套基于幂律变换的数学映射,将物理深度值“弯曲”并编码到RGB立方体的一条特定棱边路径上。模型输出一张色彩渐变的“伪彩色图”,解码时通过逆向计算,就能无损地还原出精确的物理深度距离。这套方案还特意为近处物体分配了更高的颜色分辨率,因为对机器人等应用而言,近场物体的精确度量往往更为关键。

至于表面法向量估计,方案则显得自然而然。法向量的三个分量(x, y, z)与RGB三个通道天然对齐,只需定义好坐标系(如+x向右、+y向上、+z朝外),就能直接将方向信息映射为颜色。朝左的表面偏粉红,朝上的偏浅绿,面向摄像机的则偏浅蓝紫色。

通过这种“以画代答”的统一范式,Vision Banana成功地将五花八门的视觉任务,都转化为了它最擅长的“图像生成”问题。

实验结果:全面超越零样本专家模型

2D理解:分割任务表现卓越

在语义分割上,Vision Banana在Cityscapes数据集(19类城市场景)上取得了0.699的mIoU(平均交并比),超越了SAM 3的0.652,领跑所有零样本迁移方法。

在指称表达式分割(根据自然语言描述分割特定物体)任务上,Vision Banana的表现尤为突出。在RefCOCOg和ReasonSeg数据集上,其性能均超越了SAM 3 Agent。这充分体现了其继承自生成式预训练的多模态理解能力——它更擅长推理“到底要分割什么”,而这正是纯判别式模型的短板。

3D理解:深度与法向量估计令人惊艳

单目度量深度估计是公认的难题,因为从2D图像反推3D绝对尺度存在固有歧义。现有SOTA方法通常需要引入相机参数等先验知识来辅助。

而Vision Banana的策略截然不同:它完全不使用任何相机参数,纯粹依靠在大规模图像生成中习得的关于物体尺寸和距离的几何先验来推断绝对尺度。更惊人的是,其训练数据全部来自合成渲染引擎,未使用任何真实世界的深度数据

然而,在六大公开基准测试中,Vision Banana的平均性能超越了Depth Anything V3、UniK3D等一众专家模型。为了更具说服力,论文作者甚至做了个“实地测试”:在鹿苑寺附近用手机拍了一张照片,Vision Banana估计图中某点的深度为13.71米,而用谷歌地图测量的实际距离为12.87米,误差仅约6.5%。

在表面法向量估计上,Vision Banana同样取得了领先或可比的定量结果,并且在视觉保真度和细节呈现上,其生成的结果明显优于其他模型。

生成能力:并未遗忘的初心

一个关键问题是:为了学习“理解”而进行的指令微调,是否会损害模型原本强大的“生成”能力?评估结果显示,在文字生成图像和图像编辑两项人类偏好测试中,Vision Banana与原始Nano Banana Pro的胜率接近50:50。这表明,模型成功地做到了“通晓理解,不忘生成”。

范式转变:图像生成成为视觉通用接口

这项研究的意义,远不止于一系列刷榜的分数。它清晰地指向了两个可能重塑计算机视觉领域的深刻转变。

第一,图像生成器是高效的通用视觉学习器。 类比LLM领域的生成式预训练,大规模图像生成训练让模型内化了一种通用的视觉先验。这种先验知识如此强大,以至于能够超越为特定任务精心设计的专用架构和训练范式。

第二,图像生成正在成为视觉任务的通用接口。 正如文本生成统一了语言领域的各类任务,将视觉任务输出参数化为RGB图像,使得“图像生成”这一行为,能够成为驱动各种视觉理解的统一界面。一个模型、一套权重、通过提示词切换任务——这种优雅的统一性,与LLM的成功逻辑如出一辙。

此外,生成式建模天生擅长处理视觉任务中的固有歧义(例如,一张图可能有多种合理的分割方式)。判别式模型需要特殊设计来应对这种“一对多”的问题,而生成模型学习的是完整的数据分布,歧义性在其设计之初就被优雅地容纳了。

当然,研究团队也坦诚了当前的局限,例如模型主要处理单张图像,扩展到多视图和视频是未来的方向;与轻量级专家模型相比,其推理开销仍然较高,效率优化是走向实用化的关键。

无论如何,Vision Banana的出现,让“能生成即能理解”从一个朦胧的猜想,变成了有扎实证据支撑的事实。它强烈地暗示,图像生成,很可能正在迎来计算机视觉领域的“GPT时刻”。以Nano Banana Pro为代表的大规模图像生成模型,或许正是构建那种既能“创造”又能“理解”的基础视觉模型所缺失的关键拼图。

正如DeepMind在论文结尾所展望的:“我们可能正在目睹计算机视觉的范式转变,生成式视觉预训练将在构建同时支持生成与理解的基础视觉模型中扮演核心角色,并为基于视觉的通用人工智能(AGI)铺平道路。”

这一判断,值得整个业界认真思考。

来源:https://www.jiqizhixin.com/articles/2026-04-24-4
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepMind CEO批AI裁员论 称取代开发者是重大错误
AI资讯
DeepMind CEO批AI裁员论 称取代开发者是重大错误

谷歌DeepMindCEO哈萨比斯指出,AI并非为取代程序员,而是提升生产力的工具,可将工程师效率提高数倍,从而开拓新领域、解决复杂问题。他认为用AI替代开发者是战略短视,应借助其释放的创造力转向药物发现、游戏设计等探索性工作。谷歌推出的Gemini系列AI工具正是为增强开发者能力而设计。

热心网友
05.20
哈萨比斯传记揭秘鲜为人知的幕后故事
AI资讯
哈萨比斯传记揭秘鲜为人知的幕后故事

读完这本关于德米斯·哈萨比斯的最新传记,一个更立体、更出人意料的谷歌AI掌门人形象跃然纸上。这位公认的天才,远不止是聚光灯下那位冷静的科学家。 比如,他曾试图“智取”深度学习教*父杰弗里·辛顿。在辛顿那场著名的初创公司拍卖夜,DeepMind也参与了竞标,出价1000万美元。发现竞争过于激烈后,哈萨

热心网友
05.20
DeepMind科学家深度解析人工智能为何无法具备人类意识
AI资讯
DeepMind科学家深度解析人工智能为何无法具备人类意识

今年三月,谷歌DeepMind高级科学家Alexander Lerchner发表了一篇重磅论文,其核心结论清晰而深刻:基于算法的符号操作在结构上注定无法产生真正的意识——无论未来模型规模如何庞大、架构如何精巧,甚至是否为其配备仿生身体,这一根本性限制或许都无法被跨越。 仔细审视这一论断,它并非一个关

热心网友
05.19
视觉GPT时代开启:DeepMind用Vision Banana验证生成即理解
AI资讯
视觉GPT时代开启:DeepMind用Vision Banana验证生成即理解

就在前两天,OpenAI 的 ChatGPT Images 2 0 以其惊艳表现刷屏,整体实力被认为已超越了此前的 SOTA 模型 Nano Banana Pro。当人们的注意力还聚焦在 AI 图像生成的卓越能力上时,谷歌 DeepMind 悄然发布了一篇重量级论文,系统性地论证了一个许多研究者早有

热心网友
05.18
韩国政府联手谷歌DeepMind共建国家AI科学研究中心
AI资讯
韩国政府联手谷歌DeepMind共建国家AI科学研究中心

韩国政府与全球科技巨头谷歌旗下的人工智能研究机构DeepMind正式建立战略合作伙伴关系。据韩联社4月27日消息,双方已共同签署一份谅解备忘录,旨在构建一个全方位、系统化的长期合作框架。 此次合作并非停留在意向层面,而是确立了联合研究、高端AI人才培养以及负责任的人工智能开发与应用三大核心支柱。具体

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

苹果50周年总部庆典音乐会盛大举行
iphone
苹果50周年总部庆典音乐会盛大举行

为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。

热心网友
05.20
苹果公司成立50周年库克内部信回顾从车库到25亿台销量历程
iphone
苹果公司成立50周年库克内部信回顾从车库到25亿台销量历程

苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。

热心网友
05.20
库克揭秘iPod爆红背后 苹果如何打造世界级供应链体系
iphone
库克揭秘iPod爆红背后 苹果如何打造世界级供应链体系

苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。

热心网友
05.20
段永平清仓阿里加仓英伟达拼多多 罕见布局Web3投资Circle
web3.0
段永平清仓阿里加仓英伟达拼多多 罕见布局Web3投资Circle

知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。

热心网友
05.20
Mac放大镜功能开启指南 轻松看清屏幕细节
系统平台
Mac放大镜功能开启指南 轻松看清屏幕细节

Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。

热心网友
05.20