字节跳动发布Lance多模态AI模型可理解并生成图像与视频

时间：2026-05-26 07:11

字节跳动推出AI模型Lance，统一图像与视频的理解、生成与编辑六大能力。该模型采用多任务协同训练架构，利用模态感知旋转位置编码等技术解决视觉标记混淆问题。实验显示其多任务学习能促进跨能力正向迁移，在多项基准测试中表现优异，验证了统一模型对提升泛化能力的可行性。

2026年5月，一项由字节跳动智能创作实验室主导的研究成果在arXiv预印本平台公开，论文编号为arXiv:2605.18678v1。这项研究揭示了一个关键趋势：AI内容创作工具正从功能单一的“专科医生”，向能力全面的“全科医生”演进。

当前，AI工具已广泛应用于各类创作场景。有的擅长图像识别与描述，有的精于从文本生成图像。然而，这两种核心能力长期分属不同的技术路线，如同两个专业工匠，各自为政。字节跳动的研究团队致力于打破这种割裂，他们训练了一个名为Lance的统一多模态模型，其目标正是打造一个“全能工匠”——让单个AI系统同时掌握图像理解、图像生成、图像编辑，以及视频理解、视频生成、视频编辑这六大核心能力，并让这些能力在协同训练中相互促进，实现“1+1>2”的效果。

一、为什么我们需要一个“全能工匠”？

要理解Lance模型的价值，首先需要看清当前AI领域的现状。处理文本的大语言模型与生成视频的扩散模型，其底层原理截然不同，好比作家与画家，虽同属创作领域，但思维方式与工具却少有交集。长期以来，AI研究也沿着这两条路径独立演进：一边是多模态理解模型，另一边是视觉内容生成模型。

这种技术割裂带来了两个核心挑战。首先，理解任务需要模型提取高层的语义信息（例如“图中有一只猫”），而生成任务则需要模型掌握低层的纹理、颜色、光影等细节（例如“生成一只毛发逼真的猫”）。试图用同一套视觉表示方法同时应对这两类需求，往往顾此失彼。其次，现有的“统一模型”尝试大多局限在图文领域，对视频处理和多类型编辑任务的支持往往不完整，更少将它们系统性地纳入统一的训练框架。

有趣的是，研究团队发现了一个重要规律：模型覆盖的任务种类越丰富，其在未见新任务上的泛化能力往往越强。这促使他们将“多任务协同训练”视为释放模型潜力的核心机制，而非简单的功能堆砌。换句话说，让AI同时学会“看懂世界”和“描绘世界”，不仅能为用户提供一站式便利，更可能让它在每一项任务上都比单一功能的专精模型表现更出色。

二、架构蓝图：共享大堂与独立工作室

Lance模型的架构设计遵循两大核心原则：统一上下文建模与解耦能力路径。可以将其想象成一栋现代化的办公楼：所有员工共享一个信息互通、高效协作的中央大堂（统一的多模态上下文序列），而负责“理解”的部门和负责“生成”的部门则各自拥有独立、专业的工作室（双流混合专家架构）。

在输入处理上，Lance接受文字、图片、视频的混合输入，并将其统一转化为三类标记（Token）：文字标记、由视觉Transformer编码器产生的语义视觉标记（擅长高层语义理解）、以及由3D因果变分自编码器编码器产生的生成潜在标记（精确保留底层纹理与时空结构，专用于生成与编辑）。

随后，这三类标记被组织成交错排列的多模态序列。理解专家模型（LLMUND）负责处理文字和语义视觉标记，以自回归方式输出答案；生成专家模型（LLMGEN）则处理VAE潜在标记，通过流匹配技术预测速度场，执行生成与编辑任务。两个专家模型共享上下文序列以充分交换信息，但拥有独立的参数，有效避免了不同任务目标函数之间的冲突。整个系统的训练目标是文字预测损失与生成任务速度场损失的加权和。

在注意力机制上，Lance创新性地采用了“广义3D因果注意力”，为理解、生成和条件编辑提供了统一的底层计算框架，确保了多类任务的无缝处理与高效协同。

三、关键创新：解决“身份识别危机”

在统一训练框架中，序列里同时存在三类功能迥异的视觉标记：用于理解的语义标记、作为生成条件的干净VAE标记、以及需要被预测的带噪声VAE目标标记。如果模型无法清晰地区分它们，就会在注意力计算中产生混淆，严重干扰跨任务的对齐与学习效果。

为此，研究团队提出了模态感知旋转位置编码（MaPE）。它在已有的3D旋转位置编码基础上，做了一个关键性改进：对三类视觉标记在时间维度上分别施加一个模态专属的常数偏移量，而保持空间维度的坐标不变。

这个设计非常精妙。时间维度的偏移清晰地区隔了不同模态的标记，让模型能够轻松识别每个标记的功能角色。同时，空间坐标保持不变，保证了图像和视频内部布局与结构信息的完整性。实验证明，MaPE的引入在图像生成、图像编辑、视频生成和视频理解四项核心任务上均带来了一致的性能提升，尤其在需要同时推理条件与目标的图像编辑任务上，提升效果最为显著。

四、成长路线图：分阶段训练

Lance模型的训练过程分为四个循序渐进的阶段，如同一个人的系统化学习路径。

第一阶段：预训练（PT）。目标是建立基础的多模态对齐能力和初步的视觉生成能力。使用了约10亿图文对和1.4亿视文对数据，并采用渐进式课程学习策略，训练分辨率从192p逐步提升至480p。此阶段共消耗约1.5万亿训练标记。

第二阶段：持续训练（CT）。大幅扩展任务空间，引入图像/视频编辑、主体驱动生成、多模态理解问答等复杂任务。通过三个子阶段逐步调整数据混合比例，增加高难度任务的采样权重，并引入任务专属的系统提示来引导模型行为。此阶段消耗约3000亿训练标记。

第三阶段：监督微调（SFT）。使用精选的高质量数据，精细化调整模型，重点提升指令遵循能力、视觉一致性、编辑精准度和身份保持能力。此阶段消耗约720亿训练标记。

第四阶段：强化学习（RL）。专门针对图像生成中的文字渲染质量问题，使用组相对策略优化算法，以OCR系统作为奖励模型，通过反馈机制帮助模型持续改善文本生成质量。此阶段消耗约5000亿训练标记。

五、性能评测：成绩单解读

在多项主流基准测试中，这个仅激活30亿参数的“轻量级”模型，展现出了与更大参数模型竞争甚至超越的实力。

图像生成：在评估文图对齐能力的GenEval基准上，Lance总分达到0.90，与同类最佳模型并列第一，在计数、颜色、空间位置等关键维度上表现突出。在侧重复杂语义一致性的DPG-Bench上，得分84.67，同样具备强大竞争力。

视频生成：在涵盖16个评估维度的VBench评测中，Lance以85.11的总分超越了所有参与比较的开源统一模型，在多物体生成、人体动作、颜色准确性和空间关系等难点维度上表现尤为亮眼。

图像编辑：在综合编辑评测基准GEdit-Bench上，Lance取得了7.30的平均分，是所有统一模型中最高的，在背景变更、材质修改、动作改变等11个类别中的多个类别排名第一。其文字修改能力相对薄弱，是团队坦承的未来重点改进方向。

视频理解：在评估视频时序感知能力的MVBench多选题基准上，Lance以62.0的总分领先，比排名第二的模型高出约11.3个百分点，而其参数量还不到后者的一半，展现了极高的效率。

六、协同效应：“一起学”真的更聪明吗？

这是Lance研究中最引人深思的问题。消融实验给出了数据支撑的明确答案。

研究团队系统测试了不同任务数据混合方式对模型性能的影响。仅使用生成数据训练的基线模型是起点。当加入理解数据后，图像和视频生成性能均得到提升，同时视频理解能力从无到有。进一步加入编辑等多任务生成数据后，生成性能继续提升，而视频理解分数也同步提高。

这一发现至关重要：加入更多种类的生成任务数据，不仅提升了生成能力，也连带提升了理解能力。这明确揭示了多任务学习带来的并非零和博弈，而是真实的、可测量的跨任务正向迁移效应。训练动态分析曲线也显示，即使在持续训练阶段主要引入多任务数据而非纯生成数据，模型的生成性能依然在稳步提升。

七、定性比较：差距在细节中

与同类模型的正面比较，更能直观体现Lance的优势。

在图像生成中，面对“恰好有3只狐狸和3盏小灯笼，每只狐狸各坐在一盏灯笼旁边”这类包含精确计数与复杂空间关系的提示，Lance能准确遵守所有约束，而部分基线模型则会出现数量错误或排布混乱。在文字渲染质量上，Lance的表现优于同类开源模型，与顶尖商业模型水平接近。

在视频生成中，对于“镜头从中景逐渐推向面部特写”或“两个年轻人相遇后停顿、走近并紧紧拥抱”等高难度时序指令，Lance生成的视频在镜头运动语义理解和多步骤动作连贯性上表现出色。

在图像和视频编辑任务中，Lance能够精准执行如“将大理石雕塑转换为透明光泽的冰雕”等复杂指令，并在修改内容的同时，出色地保持原始内容的结构与细节一致性。

结语

归根结底，Lance模型的研究试图证明一个核心观点：让一个AI模型同时掌握“看”与“画”的能力，并且覆盖图像与视频的理解、生成与编辑，并非贪多嚼不烂，而是一条切实可行的优化路径。跨任务协同不是一个空泛的概念，而是能够被数据验证、可复现的性能提升机制。

对于未来而言，这意味着我们或许将迎来这样一个AI创作助手：你可以向它提问图片中的内容，可以指令它编辑视频的风格，也可以让它根据一段文字描述生成短片，所有这些都由同一个轻量、统一的模型高效完成，用户无需在多个专用工具间频繁切换。

当然，Lance模型仍有其局限，如文字编辑能力、视频奖励模型的覆盖范围、模型规模与上下文长度的扩展潜力等。研究团队也将流式多模态交互（支持实时感知与生成的闭环智能体）列为令人期待的下一步探索方向。这项工作的详细技术内容，可通过论文编号arXiv:2605.18678查阅。

Q&A

Q1：Lance模型和普通的图像生成AI（比如Stable Diffusion）有什么本质区别？

A：普通图像生成AI通常是单向的“画图”工具，无法对用户上传的图片进行问答或深度分析。Lance则在一个统一模型架构内，集成了图像与视频的理解、生成、编辑共六大核心能力，并且这些能力通过协同训练相互促进，实现能力互补与整体提升，而非简单的功能拼接。

Q2：Lance多任务协同训练为什么能让理解和生成互相提升？

A：实验数据表明，理解数据的加入能为生成任务提供更好的语义 grounding（语义基础），而更多样化的生成任务数据（如编辑）反过来也能提升视频理解的分数。这是因为多样化的任务迫使模型构建更丰富、更通用的跨模态表示，不同任务间存在真实的特征共享与知识迁移，从而形成了良性的协同进化。

Q3：Lance的模态感知旋转位置编码（MaPE）解决了什么实际问题？

A：它解决了统一训练框架中，不同功能视觉标记（语义标记、条件标记、目标标记）的身份混淆问题。MaPE通过为不同类型标记在时间维度添加专属偏移，让模型能够清晰区分各自的角色，从而有效避免注意力计算中的歧义，尤其显著提升了需要同时处理条件与目标的复杂编辑任务的性能。

来源：https://www.163.com/dy/article/KTQA0KMP0511DTVV.html

AI模型

上一篇AI繁荣背后云服务收入循环计账模式深度解析 下一篇虹梅街道AI赋能街区生活落地最后一公里实践

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。