北大突破多模态AI内耗难题，张祥雨研究成果获新进展

时间：2025-12-13 18:05

今年6月，阶跃星辰首席科学家张祥雨在访谈中谈及了他在近两年模型训练中遇到的最大困境——多模态AI的内部，一直有一场“内战”。具体是，在大一统多模态模型训练中，视觉的“理解”与“生成”能力可以共存

今年6月，阶跃星辰首席科学家张祥雨在访谈中谈及了他在近两年模型训练中遇到的最大困境——多模态AI的内部，一直有一场“内战”。

具体是，在大一统多模态模型训练中，视觉的“理解”与“生成”能力可以共存，却很少协作，甚至时常内耗。在联合训练时，一方能力的提升甚至还会导致另一方性能的下降。

这和我们的认知完全相反。对于一个人类来讲，他对画面的理解越深入，作画也就可能更精妙。但在多模态模型中，理解和生成，二者之间没有形成有效的“信息增益”和“相互促进”。

张祥雨对此作出的解释是，图像生成太复杂了，得有极其复杂的空间规划、物理常识和语义推理。而Transformer模型虽然强大，但它在一次前向传播中能执行的逻辑推理步骤是有限的。你让它根据“画一个宇航员在月球骑方形轮子的自行车”这个指令，一次性生成符合所有物理、几何、语义约束的图像太难了。

而在训练过程中，因为这种单次推理，导致梯度信号太粗糙，训练出来的理解模型根本没法给生成模型有效指导，而反向亦然，生成模块的失败，也无法有效地帮助理解模块进步。

因此张祥雨给出的解决方法是多模态模型应该像语言推理一样，引入“思维链”（Chain-of-Thought）。让模型分步骤地思考和创作，从而规避掉单次推理导致的信号粗糙问题。

但最近，北大的一篇最新研究《理解与生成能真正互利，还是仅仅共存？》提出了一个名为UAE的全新框架，为这个问题提供了另一个解法。

附论文地址：https://arxiv.org/abs/2509.09666

张祥雨的思维链方案确实有其道理，但它主要解决的是单次推理的复杂度问题。而北大团队却发现了一个更根本的问题：理解和生成的训练目标本身就是割裂的。即使引入思维链，两个模块依然是在追求不同的KPI。

因此，UAE团队选择了一个更激进的路径：与其让模型分步思考同一个复杂任务，不如重新定义任务本身，让理解和生成成为同一个流程的两个环节。

01 统一之路：从各自为政到流水线协作

要理解这篇论文的精妙之处，我们必须先弄清楚统一多模态模型旧方法的根本问题所在。

旧方法就像“双头政治”下的无尽内耗。

想象一个工坊里有两个大师傅，我们称他们为“理解工匠”和“生成工匠”。

“理解工匠”的KPI是语义抽象的准确性。他的任务是看懂一幅画，并用最精炼、最准确的语言概括出其核心内容。他需要忽略细微变化，抓住事物的本质和关系。因此要做好这个工作，它的逻辑是从具体到抽象的认知过程。

“生成工匠”的KPI是像素还原的保真度。他的任务是根据指令画一幅画。他的工作成果会被放在显微镜下检查。因此他必须极度关注细节、材质和物理世界的统计规律。为了足够还原，它的逻辑是从抽象到具体的构建过程。

在过去许多“统一模型”的尝试中，研究者们都是试图让同一个模型（拥有同一组核心参数）去同时扮演这两个角色，并同时用这两套截然不同的KPI去考核他。

两个优化目标在底层逻辑上是相互冲突的，它们的梯度更新在模型的参数空间中互相拉扯，导致训练过程极不稳定，最终往往是两头都做不好，或者顾此失彼。

为了避免这种直接冲突，一些工作选择了“解耦”（decouple）的策略。研究人员先独立地把“理解官”和“生成官”都单独训练到顶尖水平，然后再建一个联络办公室（适配器模块）让他们进行有限的沟通。这种方式避免了内耗，也确实让模型同时具备了两种能力。

但这是一种“貌合神离”的统一，他们只是“共存”于同一个屋檐下，并没有形成真正的协同效应和相互增益。

而新方法则是在“流水线作业”下的共同目标

面对“双头政治”的困境，UAE框架的提出者们做出了一个根本性的变革：废除两套独立的KPI，建立一条统一的流水线，并设立一个唯一的、最终的质检标准。

这个思想的核心，源自经典的“自编码器”（Auto-Encoder）模型。

自编码器的逻辑很简单：它由一个编码器（Encoder）和一个解码器（Decoder）组成。编码器负责将输入的数据（如一张图片）压缩成一个紧凑的、包含核心信息的表示（通常是一个向量）。解码器则负责读取这个压缩表示，并尽力将它还原成原始的输入数据。

整个系统的训练目标只有一个：让还原后的输出与原始输入尽可能地相似。

UAE框架巧妙地将这个结构映射到了理解与生成的任务上。

理解，即是编码（压缩工序）：在流水线上，用Qwen-2.5-VL 3B训练的“理解模型”扮演了编码器的角色。他作为流水线的第一道工序。接收一张原始图像，然后将其所有关键的、可描述的语义信息，无损地“压缩”成一段详尽的、结构化的文字描述。这段文字，就是这张图像的核心信息表示。

生成，即是解码（还原工序）：用SD3.5-large训练的“生成模型”扮演了解码器的角色，是流水线的第二道工序。他接收上一道工序产出的文字描述，唯一的任务就是根据这段信息，将原始图像“解压”并重建出来。

这条流水线上，旧的矛盾被彻底化解了。两位工匠有了一个共同的KPI：保证流水线终端产出的“重建图像”能够完美还原最初投入的原始图像。

为什么重构相似度是衡量统一性的好指标？

因为如果理解模块真的"懂"了原图，它的描述就应该包含所有关键信息。而如果生成模块真的"懂"了描述，它就应该能重现原图的所有要素。

所以如果重构出的图像与原图高度相似，说明信息在理解→文本→生成这条链路上实现了近乎无损传递。

02 训练上左右循环，两向加强

设计出“流水线”这个全新的组织架构只是第一步。更关键的问题是：如何训练这条流水线上的两位工匠，让他们从新手成长为大师，并最终达成完美的默契？

UAE提出了一个名为Unified-GRPO的三阶段训练策略，实现了理解和生成的"左右循环，两向加强"。

阶段一：冷启动重建（岗前培训与初步对齐）

就像两个陌生人需要先建立基本的沟通默契一样，理解和生成模块首先需要在一个宽松的环境中建立初步的协作关系。

在这个阶段，系统会接收一张原始图像，由“理解模块”生成描述，再由“生成模块”重建图像。然后，直接根据重建图像和原始图像的语义相似度计算一个基础的损失，并用这个损失同时更新两个模块的参数。

这个阶段的目标很简单：确保生成模块能够从理解模块的输出中重构出语义上相近的图像，建立起基本的信息传递通道。

阶段二：生成服务理解，重点训练“理解工匠”

岗前培训结束后，真正的专项训练开始了。这是“左右循环”的第一步，教练的目标是把“理解工匠”训练成一个顶级的沟通者。

训练流程如下：

1.冻结“生成工匠”：在这个阶段，“生成工匠”（生成模型）的能力被暂时固定住。他不再学习新技能，而是扮演一个水平稳定的“质量检验员”或“陪练员”。

2.“理解工匠”反复试错：现在，“理解工匠”（理解模型）是唯一的学员。他会接收一张原始图像，然后尝试生成一段描述。

3.陪练员执行：固定的“生成工匠”会接过这段描述，并尽其所能地去重建图像。

4.教练打分：教练（强化学习算法）会比较重建出的图像和原始图像。进行奖励和惩罚。

通过成千上万次的循环，“理解工匠”被迫去学习如何生成对“生成工匠”最友好的描述。这就是“两向加强”的第一个方向：生成的结果，反过来加强了理解的深度和精度。

阶段三：理解服务生成，重点训练“生成工匠”

当“理解工匠”经过特训，已经能稳定地产出信息极其丰富的描述后，循环进入第二步。现在，教练的目标是把“生成工匠”训练成一个顶级的执行者。

训练流程与阶段二正好相反，就是冻结理解工匠，让生成工匠根据描述反复重建图像，优化技艺。

在这个阶段，“生成工匠”被迫去学习如何处理和执行长篇的、充满约束的指令。这就是“两向加强”的第二个方向：精深的理解，反过来加强了生成对复杂指令的遵循能力。

第二轮和第三轮会交替进行训练，这种交替训练形成了一种正反馈循环：理解越精准，生成越准确；生成要求越高，理解越深入。在后两个阶段中，UAE都是使用了GRPO算法。

生成与理解交汇处的Aha Moment

通过UAE的新方法，当这套“左右循环、两向加强”的训练体系运转起来后，模型的行为确实自发涌现出了利于协同的行为。而且，在这些转折点上，理解模块都出现了类似人类的"顿悟时刻"。

比如，理解模块生成的文字描述，在没有任何外部指令的情况下，变得越来越长，越来越详细。传统图像描述通常只有几个词，但UAE使用平均超过250个英文单词的详细描述。

在训练早期只有简短描述，主要包含基本对象和颜色，但到了训练中期则开始包含计数、空间关系等信息。最终，训练后期，这个模型已经可以详细的描述系统性覆盖材质（"针织毛衣"）、遮挡关系（"耳朵不可见"）、背景细节（"模糊的公园背景"）、光照条件等。

这背后有一个精妙的博弈机制。

理解模块发现：描述越详细，生成质量越高，自己的奖励越多——但也不是随便加词就有用，必须是对重构有帮助的细节。

于是，它开始自动学习什么细节对生成最关键。

而生成模块为了利用这些丰富信息，也被迫提升长文本处理能力。

研究者将UAE理解模型生成的描述，与其他知名模型（如Bagel, OmniGen2）生成的描述进行比较，并请了多个顶尖大语言模型（如GPT-4o, Claude-4.1）作为裁判。UAE的描述在完整性、属性绑定、关系和空间保真度等多个方面都更胜一筹。

而生成方面，UAE更是获得了同意模型SOTA。GenEval基准上UAE获得0.86综合得分，在统一模型中排名第一，特别是在需要精确理解的计数（0.84）和颜色归因（0.79）任务上表现突出。在更具挑战性的复杂场景处理GenEval++基准（包含三个或更多对象的复杂场景）中，UAE也获得0.475的最佳得分。