苹果AI新突破：统一框架实现图文理解与生成能力大幅提升

时间：2026-05-16 12:53

苹果与伊利诺伊大学团队提出STARFlow2模型，基于自回归流与语言模型结构相同的洞察，采用Pretzel架构让图文生成共享同一套因果Transformer核心。通过垂直跳跃连接，模型在保持强大视觉理解能力的同时，实现了高质量的连续图像生成，并在多任务训练中提升了性能。

近期，AI领域一项来自苹果公司与伊利诺伊大学厄巴纳-香槟分校的研究备受关注。团队在arXiv上发布了预印本论文（编号arXiv:2605.08029v1），提出了名为STARFlow2的全新模型。这项研究旨在解决多模态AI领域长期存在的“偏科”难题。

当前，用户普遍期待AI助手能够“多才多艺”：既能精准理解图像内容并进行对话，又能根据文本描述生成高质量图片，甚至能在多轮对话中流畅地混合生成图文内容。然而现实情况是，多数现有AI系统都是“偏科生”——擅长视觉理解（VLM）的模型不擅长生成，而专精图像生成的模型（如扩散模型）在复杂理解任务上表现欠佳，且两套逻辑在架构层面往往是割裂的。

苹果研究团队指出，问题的根源或许不仅在于模型能力，更在于架构的“先天不足”。现有的所谓统一模型，通常是将文本生成与图像生成两套不同机制简单拼接。而STARFlow2的雄心，是从根本上重构架构，让同一套核心机制能够自然、同步地驱动文本与连续图像的生成，实现真正的底层统一。

一、现有“统一”AI模型的局限与挑战

要理解STARFlow2的创新价值，首先需要厘清当前方案的瓶颈所在。

以主流大语言模型（LLM）为例，其文本生成遵循“因果自回归”模式，如同输入法逐词预测，是单向、顺序进行的。而当前主流的图像生成技术，如扩散模型，其工作方式截然不同：它从一张纯噪声图像开始，经过数十甚至数百次迭代去噪，才逐步得到清晰画面，这是一个需要反复迭代、双向调整的过程。

因此，当研究者试图将这两种能力整合进单一模型时，便面临根本性冲突。最常见的妥协方案是构建“双引擎”模型：一个模块负责文本，另一个模块负责图像，共享部分参数但各自为政。这好比制造了一辆前轮电动、后轮燃油的混合动力车，表面统一，内部协同效率却很低。

这种拼凑架构带来一系列具体问题：首先，已生成的图像无法直接存入模型的记忆（KV缓存），后续对话若要引用，需重新编码，造成计算资源浪费。其次，在训练图像生成能力时，极易干扰甚至损害模型原有的强大视觉理解能力，导致性能退化。最后，许多方案使用离散的“视觉词元”来表征图像，如同将高清照片压缩为低像素马赛克，导致丰富的视觉细节丢失。

苹果团队将核心目标归纳为三点：保持顶尖的视觉语言理解能力不退化、以连续方式生成高质量图像、实现文本与图像生成逻辑的深度统一。遗憾的是，现有方案往往难以同时满足这三大目标。

二、关键洞察：自回归流模型与语言模型的结构同源性

破局的关键，源于一个精妙的发现。

语言模型的核心是因果Transformer，其依靠“从左至右单向看”的注意力掩码机制工作。有趣的是，近年来兴起的一类图像生成模型——自回归归一化流（TARFlow），其核心结构竟然也是因果Transformer。它们拥有相同的单向注意力模式和缓存机制。

两者唯一的区别在于输出层：语言模型输出的是下一个词元的概率分布，而TARFlow模型输出的是用于变换连续数值分布的参数。这意味着，若将语言模型的“词元预测头”替换为“分布参数预测头”，它就能直接转变为连续的图像生成模型，而无需改动其内部骨干网络。

这一发现至关重要。它揭示了文本生成与连续图像生成之间，并不存在不可调和的结构性鸿沟，仅仅是最终的“输出形式”不同。这好比制作巧克力蛋糕与香草蛋糕，前期混合面粉、鸡蛋、黄油的过程完全一致，仅在最后加入不同风味的原料。既然如此，完全可以用同一套“厨房设备”和“烘焙流程”来完成两种任务。

STARFlow2正是基于这一洞察，让文本生成与图像生成共享同一套因果Transformer骨干、同一套KV缓存以及相同的自回归生成逻辑，实现了前所未有的底层架构统一。

三、Pretzel架构：垂直交织的双流设计

STARFlow2的核心设计被称为“Pretzel架构”，其灵感来源于椒盐卷饼（Pretzel）两股面扭结交织的形态，形象地比喻了两条数据处理流如何深度互动。

该架构包含两条垂直交织的流水线。第一条是“VLM流”，基于一个预训练好的、能力强大的视觉语言模型（研究中采用了Qwen2.5-VL-7B-Instruct），专精于多模态理解。第二条是“TARFlow流”，是一个专门负责连续图像生成的自回归流模型。它们共同处理图文交错的数据序列。

架构的精髓在于两条流之间的“垂直跳跃连接”。这些连接在序列的每一个计算位置，都实现了信息的双向流通。形象地说，如同两条平行高速公路之间，每隔一段就设有立体交汇匝道，让车辆可以实时、无缝地切换车道并交换信息。

具体而言：当TARFlow流正在生成图像时，其输入不仅包含图像数据本身，还会融入来自VLM流在同一位置输出的高层语义信息。这使得图像生成的每一步都能获得丰富的上下文理解指引，好比画家在创作时，随时有一位艺术顾问在旁提供构图与意境上的建议。

反之，在生成文本的位置，TARFlow流会输出一个轻量级的校正项，对VLM流的预测进行微调。VLM强大的语言生成能力主体保持不变，TARFlow仅扮演提供跨模态建议的“助理”角色。

为确保预训练获得的理解能力不被破坏，VLM流在整个训练过程中参数被“冻结”，不予更新。而连接两条流的跳跃连接权重，则被初始化为零，让模型从完全独立的状态开始，逐步学会如何协同工作。

与传统的“混合专家”（MoE）架构相比，Pretzel的优势在于“垂直交织”而非“水平并列”。它使得两条流水线在每一个序列位置都能进行深度信息融合，协作更为紧密。实验也证实，若采用简单的分支混合方案，要么会导致生成质量下降，要么会引起理解能力的严重退化。

四、深浅流设计与FAE潜在空间：兼顾细节与效率

有了统一的骨架，还需要精密的配套设计来提升整体性能。STARFlow2引入了“深浅流设计”与“FAE潜在空间”。

图像像素间存在复杂的空间相关性。若仅用单一深度模型处理，效率不高。深浅流设计将生成过程分为两步：首先由数个“浅层块”负责，它们像整理乐高积木一样，通过正向与反向交替扫描，将图像的局部复杂结构转换为更规整、更易于处理的中间表示。随后，由深层的TARFlow流结合整个对话的全局上下文，进行跨模态的语义建模。这种分工协作机制，既保障了局部细节的丰富性，又把握了图像的整体语义一致性。

另一项关键技术是“FAE潜在空间”。模型并非直接处理原始像素，而是先将图像压缩到一个由“特征自编码器”学习得到的紧凑连续向量空间中。该编码器基于强大的DINOv2视觉基础模型特征进行训练。研究表明，基于DINOv2特征的FAE，在图像生成质量与下游理解任务的兼容性上均表现更优。

这个共享的潜在空间意义重大：在进行理解任务时，图像被编码至此空间作为输入；在进行生成任务时，模型的目标则是输出该空间中的向量。理解与生成使用同一种“语言”进行交流，避免了繁琐的格式转换。更重要的是，无论是生成的图像向量还是文本向量，都能直接存入统一的KV缓存，供后续生成步骤即时调用。这使得进行多轮、复杂的图文交错对话变得异常流畅和高效。

五、三阶段训练策略：循序渐进培养多模态能力

精妙的架构需要合理的训练策略来激活其潜能。STARFlow2的训练分为三个阶段，循序渐进。

第一阶段：文生图基础训练。 专注于让TARFlow流水线学会根据文本描述生成图像。此阶段VLM流被冻结，仅提供文本的语义表示作为“指导信号”。使用约8亿规模的文本-图像对数据进行训练，目标是打下扎实的文生图基础能力。

第二阶段：视觉表示对齐训练。 目标是让VLM能够“读懂”FAE潜在空间中的图像表示。此阶段仅训练一个轻量的“适配器”模块，负责将生成专用的图像表示转换为VLM能够理解的形式。使用约2亿规模的图文对样本进行训练，确保生成和理解模块使用同一种“视觉语言”进行沟通。

第三阶段：多任务协同训练。 激活两条流水线间的跳跃连接，让所有可训练组件（VLM和FAE编码器保持冻结）在多模态理解、文生图、图生文、图像编辑等混合任务上进行联合优化。训练从两条流水线独立工作开始，逐渐学会通过跳跃连接交换信息，最终达成默契的协同配合。

整个训练过程在64块H100 GPU上完成，总可训练参数量约为36亿。

六、实验结果：全面验证三大目标

STARFlow2在多个权威基准测试集上接受了全面评估。

在多模态理解能力方面，它在MME、SEED-Bench等六个主流评测集上取得了与同规模统一模型相当的分数。需要说明的是，受当前FAE编码器限制，模型仅能在256×256分辨率下处理图像，而对比模型往往使用更高分辨率输入，因此在理解得分上存在一定的先天劣势。但关键结论在于：在整合了强大的图像生成能力后，模型原有的理解性能并未出现崩塌式下降，这有力验证了Pretzel架构对预训练模型能力的保护是有效的。

在图像生成质量方面，结果更为突出。在GenEval和DPG-Bench测试集上，STARFlow2的得分与专用图像生成模型（如SD3-Medium）相比也极具竞争力。一个关键对比数据是：仅完成第一阶段文生图训练时，其在GenEval上的得分仅为0.51；而经过第三阶段多任务联合训练后，得分显著跃升至0.82，性能提升超过60%。这强有力地证明，让模型同步学习理解与生成，不仅没有相互干扰，反而借助VLM流注入的深层语义信息，显著提升了图像生成的质量与相关性。

七、垂直跳跃连接有效性验证

优秀的设计需要数据支撑。研究团队对跳跃连接的实际贡献进行了定量分析。

对于图像生成位置的连接（VLM信息注入TARFlow），数据分析显示，VLM提供的信息在融合后的特征表示中贡献了约47%的幅度，且其方向与TARFlow的原始信息几乎正交。这表明VLM注入的是全新的、具有高度互补性的语义信息，而非简单的重复或噪声。

对于文本生成位置的连接（TARFlow修正VLM），修正项的幅度占比均值仅为1.3%。这完全符合设计预期：文本生成的主导权牢牢掌握在VLM手中，TARFlow仅提供极其轻微的多模态上下文修正，绝不喧宾夺主。

这两组数据清晰地刻画了Pretzel架构的理想工作状态：在生成图像时，两条流水线深度融合，VLM提供高层语义指导；在生成文本时，则以VLM的理解能力为主，保持生成稳定性。

八、当前局限与未来展望

论文也客观地指出了当前模型的若干局限性。

首先，三阶段训练流程虽然有效，但增加了工程复杂性，且可能限制某些组件的充分优化。探索更简洁的端到端联合训练范式是未来的重要方向。

其次，模型目前受限于预训练的FAE编码器，导致图像分辨率（仅256×256）和细节质量（尤其是图像中的文字渲染）存在明显短板。更根本的解决方案是转向像素级或图像块级（Patch）的原生视觉表示，减少对外部编码器的依赖。

最后，尽管在多项基准测试中取得了有竞争力的成绩，STARFlow2并未在所有任务上达到最优。扩大训练数据规模、提升训练稳定性、改进视觉表示质量，以及增强长上下文下的多轮图文交错生成能力，都是未来需要重点攻关的课题。

总而言之，STARFlow2这项研究的核心价值，在于它没有在现有框架内进行零敲碎打的改进，而是回归本质，重新思考了“多模态统一”的根本问题。它发现了文本生成与连续图像生成在结构上的同源性，并通过Pretzel这样的创新交织架构，在完美保护强大理解能力的同时，实现了高质量、高效率的统一生成。

这预示着，未来的AI助手有望在同一段对话中，更自然、更连贯地在理解与创造之间无缝切换，像人类交流一样完成复杂的多模态任务。当然，通往更高分辨率、更精细图像生成的道路依然漫长，但STARFlow2无疑为下一代多模态大模型的发展指明了一条极具潜力的新路径。

Q&A

Q1：STARFlow2与普通的图文生成AI模型有何本质区别？

普通统一模型通常是“两套逻辑的拼凑”：文本生成采用自回归预测，图像生成则依赖扩散模型的迭代降噪。STARFlow2的核心发现是，自回归流模型（TARFlow）与语言模型（LLM）在骨干结构上完全相同。因此，它能用同一套因果Transformer机制同步驱动文本和连续图像的生成，无需降噪迭代，也避免了生成后对图像进行重新编码的额外开销。

Q2：Pretzel架构冻结了VLM，那图像生成的质量如何保证？

图像生成质量主要由TARFlow流水线保证，并显著受益于VLM通过跳跃连接实时注入的高层语义信息。实验数据表明，VLM信息在融合特征中贡献了近一半的幅度，且与TARFlow信息高度互补。更重要的是，在引入VLM进行多任务联合训练后，图像生成的评测得分大幅提升，这证明即使参数被冻结，VLM通过语义注入对生成质量有实质性的提升作用。

Q3：STARFlow2目前最主要的短板是什么？

最明显的短板在于图像分辨率和细节受限于外部FAE编码器，目前仅支持256×256分辨率，且在生成图像中的文字渲染效果不佳。此外，多阶段训练流程较为复杂，可能存在优化不充分的问题。未来的主要改进方向包括：采用像素级或图像块级的原生视觉表示以替代FAE，以及探索更高效的端到端训练方案。

来源：https://www.163.com/dy/article/KSU1LKQB0511DTVV.html

图文理解

上一篇马里兰大学新研究让AI自主设计推理策略效率提升近70% 下一篇阿里巴巴人大清华联合研发舞蹈AI导演系统

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。