视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与_AI热点日报

视觉GPT来临 DeepMind生成即理解 Vision Banana何恺明谢赛宁参与

类型：热点整理2026-05-20

就在人们还在为ChatGPT Images 2 0的惊艳表现而惊叹时，谷歌DeepMind的一篇重磅论文，为AI视觉领域投下了一枚“深水冲击波”。这篇题为《Image Generators are Generalist Vision Learners》的研究，系统性地证实了一个许多研究者心中早有预感

就在人们还在为ChatGPT Images 2.0的惊艳表现而惊叹时，谷歌DeepMind的一篇重磅论文，为AI视觉领域投下了一枚“深水冲击波”。这篇题为《Image Generators are Generalist Vision Learners》的研究，系统性地证实了一个许多研究者心中早有预感、却一直未被完全验证的直觉：强大的图像生成器，本身就是更强大的通用视觉学习器。

这背后是一个简单而深刻的逻辑：如果一个模型能够根据文本提示，生成高保真、语义精确的图像，那么它必然已经深刻理解了物体的形状、结构和空间关系。这种通过“创造”来“理解”的能力，是否足以让它胜任其他视觉任务？DeepMind的答案是肯定的。

他们基于当前顶尖的图像生成模型Nano Banana Pro，构建了一个名为Vision Banana的通用模型。结果令人震惊：这个“跨界”选手在图像分割、深度估计等一系列核心视觉任务上，其零样本（zero-shot）性能竟然媲美甚至超越了那些为特定任务量身定制的专家模型，比如分割领域的标杆Segment Anything Model 3，以及深度估计的王者Depth Anything系列。

论文作者之一Shangbang Long在社交媒体上分享这一成果时，难掩兴奋。而知名研究者谢赛宁更是连发数条推文强调其里程碑意义：一个单一的多模态通用模型，首次在底层感知任务上全面超越了顶尖的领域专用模型。这意味着，过去被视为截然不同的视觉问题，如今可以通过简单的提示词，在同一个系统下统一解决。

研究背景：一个由来已久的猜想

“生成即理解”，这个想法在AI研究圈里盘旋已久。道理似乎不言自明：不会“看”，怎能“画”？然而，现实却与直觉存在落差。长期以来，视觉表征学习的主流路径并非生成式建模，而是有监督的判别式学习、对比学习等。尽管早期的生成式视觉预训练展现出潜力，但其效果始终未能超越非生成式模型。

反观自然语言处理（NLP）领域，局面早已被改写。GPT系列模型已经证明，通过让模型预测下一个词（token）这种生成式预训练，大语言模型（LLM）能够涌现出强大的语言理解和推理能力。那么，一个自然而然的问题被提了出来：图像生成，能否扮演与文本生成类似的角色，成为训练通用视觉模型的“终极预训练任务”？

核心方法：把一切视觉任务都“画”出来

Vision Banana的实现方法，巧妙得令人叫绝。研究团队没有给Nano Banana Pro这个生成模型嫁接任何用于检测或分割的专用网络结构，也没有改动其底层架构。他们的核心思路是：将所有视觉感知任务的输出，全部“伪装”成RGB图像。

具体来说，他们在原始的图像生成训练数据中，混入了一小部分带有任务指令的视觉数据，对模型进行轻量级的指令微调。关键在于，他们教导模型将任务输出直接“画”成一张图。

例如，在做语义分割时，提示词会是：“把图中的滑板涂成纯黄色 <255, 255, 0>”。模型便会生成一张RGB图像，其中滑板区域被渲染成指定的黄色。之后，只需简单地提取对应颜色的像素，就能得到精确的分割掩码。

而在处理更具挑战性的单目度量深度估计时，设计则更为精妙。深度值范围是[0, ∞)，而RGB色彩空间是有限的[0, 1]^3立方体。如何建立两者间严格可逆的映射？研究团队设计了一套基于幂律变换的数学映射，将物理深度值“弯曲”并编码到RGB立方体的一条特定棱边路径上。模型输出一张色彩渐变的“伪彩色图”，解码时通过逆向计算，就能无损地还原出精确的物理深度距离。这套方案还特意为近处物体分配了更高的颜色分辨率，因为对机器人等应用而言，近场物体的精确度量往往更为关键。

至于表面法向量估计，方案则显得自然而然。法向量的三个分量(x, y, z)与RGB三个通道天然对齐，只需定义好坐标系（如+x向右、+y向上、+z朝外），就能直接将方向信息映射为颜色。朝左的表面偏粉红，朝上的偏浅绿，面向摄像机的则偏浅蓝紫色。

通过这种“以画代答”的统一范式，Vision Banana成功地将五花八门的视觉任务，都转化为了它最擅长的“图像生成”问题。

实验结果：全面超越零样本专家模型

2D理解：分割任务表现卓越

在语义分割上，Vision Banana在Cityscapes数据集（19类城市场景）上取得了0.699的mIoU（平均交并比），超越了SAM 3的0.652，领跑所有零样本迁移方法。

在指称表达式分割（根据自然语言描述分割特定物体）任务上，Vision Banana的表现尤为突出。在RefCOCOg和ReasonSeg数据集上，其性能均超越了SAM 3 Agent。这充分体现了其继承自生成式预训练的多模态理解能力——它更擅长推理“到底要分割什么”，而这正是纯判别式模型的短板。

3D理解：深度与法向量估计令人惊艳

单目度量深度估计是公认的难题，因为从2D图像反推3D绝对尺度存在固有歧义。现有SOTA方法通常需要引入相机参数等先验知识来辅助。

而Vision Banana的策略截然不同：它完全不使用任何相机参数，纯粹依靠在大规模图像生成中习得的关于物体尺寸和距离的几何先验来推断绝对尺度。更惊人的是，其训练数据全部来自合成渲染引擎，未使用任何真实世界的深度数据。

然而，在六大公开基准测试中，Vision Banana的平均性能超越了Depth Anything V3、UniK3D等一众专家模型。为了更具说服力，论文作者甚至做了个“实地测试”：在鹿苑寺附近用手机拍了一张照片，Vision Banana估计图中某点的深度为13.71米，而用谷歌地图测量的实际距离为12.87米，误差仅约6.5%。

在表面法向量估计上，Vision Banana同样取得了领先或可比的定量结果，并且在视觉保真度和细节呈现上，其生成的结果明显优于其他模型。

生成能力：并未遗忘的初心

一个关键问题是：为了学习“理解”而进行的指令微调，是否会损害模型原本强大的“生成”能力？评估结果显示，在文字生成图像和图像编辑两项人类偏好测试中，Vision Banana与原始Nano Banana Pro的胜率接近50:50。这表明，模型成功地做到了“通晓理解，不忘生成”。

范式转变：图像生成成为视觉通用接口

这项研究的意义，远不止于一系列刷榜的分数。它清晰地指向了两个可能重塑计算机视觉领域的深刻转变。

第一，图像生成器是高效的通用视觉学习器。 类比LLM领域的生成式预训练，大规模图像生成训练让模型内化了一种通用的视觉先验。这种先验知识如此强大，以至于能够超越为特定任务精心设计的专用架构和训练范式。

第二，图像生成正在成为视觉任务的通用接口。 正如文本生成统一了语言领域的各类任务，将视觉任务输出参数化为RGB图像，使得“图像生成”这一行为，能够成为驱动各种视觉理解的统一界面。一个模型、一套权重、通过提示词切换任务——这种优雅的统一性，与LLM的成功逻辑如出一辙。

此外，生成式建模天生擅长处理视觉任务中的固有歧义（例如，一张图可能有多种合理的分割方式）。判别式模型需要特殊设计来应对这种“一对多”的问题，而生成模型学习的是完整的数据分布，歧义性在其设计之初就被优雅地容纳了。

当然，研究团队也坦诚了当前的局限，例如模型主要处理单张图像，扩展到多视图和视频是未来的方向；与轻量级专家模型相比，其推理开销仍然较高，效率优化是走向实用化的关键。

无论如何，Vision Banana的出现，让“能生成即能理解”从一个朦胧的猜想，变成了有扎实证据支撑的事实。它强烈地暗示，图像生成，很可能正在迎来计算机视觉领域的“GPT时刻”。以Nano Banana Pro为代表的大规模图像生成模型，或许正是构建那种既能“创造”又能“理解”的基础视觉模型所缺失的关键拼图。

正如DeepMind在论文结尾所展望的：“我们可能正在目睹计算机视觉的范式转变，生成式视觉预训练将在构建同时支持生成与理解的基础视觉模型中扮演核心角色，并为基于视觉的通用人工智能（AGI）铺平道路。”

这一判断，值得整个业界认真思考。

来源：https://www.jiqizhixin.com/articles/2026-04-24-4

DeepMind

延伸阅读

补充最近整理过的热点入口。