何恺明团队开源Cola DLM：连续扩散语言模型原理与应用详解_AI热点日报

字节跳动开源连续扩散模型ColaDLM，将生成过程置于连续语义空间而非离散token层面。模型通过潜在先验生成语义，再由解码器转化为文字，实验显示其扩展趋势优于自回归与主流离散扩散模型。该研究旨在构建稳定语义表示，为多模态统一提供连续接口，挑战了传统语言建模对离散token的依赖。

大语言模型的发展路径，长期被“预测下一个词”的自回归范式主导。然而，这条路径是唯一的选择吗？继何恺明团队之后，字节跳动的最新研究给出了否定的答案。有趣的是，两家顶尖团队不约而同地将目光投向了同一个前沿方向：在连续的语义空间中重新定义语言建模。

更值得关注的是，字节此次将开源精神贯彻到底，不仅公开了研究论文和模型代码，还完整发布了预训练模型权重以及详尽的中文技术解读博客，为社区提供了宝贵的研究资源。

让我们先简要回顾背景。不久前，何恺明团队推出了首个扩散语言模型ELF。它跳过了离散的token层面，将文本生成过程完全置于连续的embedding空间中完成。该模型仅用1.05亿参数就超越了多个主流扩散语言模型，首次有力证明了连续建模路径在语言生成领域的巨大潜力。

而字节跳动此次推出的Cola DLM（连续潜在扩散语言模型），则为这一新兴趋势提供了更坚实的实证。研究团队同样选择挣脱传统离散token的束缚，将生成过程交给连续语义空间。结果如何？在一项参数规模约20亿、计算量约2000 EFLOPs的严格对照实验中，Cola DLM展现出了比传统自回归模型和主流离散扩散语言模型更优且更稳定的扩展趋势。

然而，如果你认为这仅仅是简单地将图像扩散模型套用到文本领域，那就误解了其核心创新。字节的研究团队明确指出：

Cola DLM的初衷从来不是扩散模型本身。

这听起来似乎矛盾：不是为了研究扩散模型，却构建了一个扩散语言模型？

字节的核心理念：Token不等于语义，表征才是关键

事实上，真正的重点隐藏在后续的阐述中：

Cola DLM的动机从来不是扩散，而是表征。

在字节的研究者看来，语言的内在连续语义表征才是关键。Token，这种由分词器工程和历史路径依赖形成的离散符号，仅仅是语义得以呈现的一种表层载体。他们甚至提出了一个深刻的观点：

Token是人类语言系统的表层载体，并非语义本身。

一个简单的例子就能清晰说明问题。表达“我今天很开心”这个核心语义，可以有多种不同的表层表述：“今天我心情很好”、“今天过得挺愉快”。这些句子的token序列差异显著，但其背后所指代的深层语义却是高度一致的。

传统的大语言模型通常会将这几种不同的表达，当作几套独立的模式分别进行学习和记忆。这导致模型不得不在token这个表层符号上进行繁琐的对齐，尽管它们指向的是同一个深层语义概念。

因此，字节团队的判断是：如果模型内部能形成一种更稳定、更抽象的“语义状态”表示，那么这些本质相同、只是表述各异的句子，就无需被分别记忆，而可以在模型的潜在空间中收敛到相近的表示上。从本质上讲：

Cola DLM中的扩散过程，并非在恢复具体的token，而是在“运输”和塑造一个潜在的语义先验。

如何实现这种“语义先验”的运输？字节选择将语义生成与文本实现进行彻底的分层解耦。

具体的方法论在论文的3.1.1节有详细阐述，这里可以概括理解为：Cola DLM的生成框架本质上由两部分构成。一个潜在先验模型，负责在连续空间中生成“潜在语义状态”；一个解码器，负责将这些抽象的语义状态“翻译”成具体的离散文字序列。这相当于把“生成一句话”这项复杂任务，拆解成了“决定说什么”和“决定怎么说”两件相对独立的工作。

关键在于，整个扩散或流匹配的生成过程，都发生在潜在语义空间里，而非离散的token空间。也就是说，Cola DLM所做的，并非将一堆杂乱的token逐步去噪成干净的token序列，而是先在连续的语义空间里，将一团随机噪声逐步组织、塑造成有意义的潜在语义表达，最后再通过解码器统一转化为可读的文字。

Cola DLM生成过程示意图

因此，在其核心生成路径中，根本没有token被逐步预测或生成的过程。Token只在最后一步才出现，模型前面所有步骤学习的都是“语义如何形成与组织”。

这也是Cola DLM与许多其他扩散语言模型最根本的不同。许多模型本质上仍围绕着token进行“修修补补”，例如恢复被掩码的token、逐步还原离散文本。但Cola DLM直接将扩散过程从“文字层”提升到了“语义层”，扩散不再负责“生成token”，而是负责“组织语义”。用研究者的话说：

这并非包装上的差异，而是彻底改变了扩散在模型中扮演的角色。

Cola DLM背后的关键设计

理解了核心理念，那么Cola DLM究竟是如何在工程上实现，并与传统连续扩散语言模型拉开差距的呢？答案隐藏在几个看似工程化却至关重要的设计选择中。

关键一：潜在变量并非简单的词嵌入替代品

首先是潜在变量的来源。许多人听到“连续语言模型”，第一反应是在词嵌入向量上直接进行扩散。但Cola DLM反其道而行，专门构建了一套文本变分自编码器（Text VAE）：

编码器：将离散文本序列压缩成低维、连续的潜在语义表示（相当于提取文本的“语义指纹”）。
解码器：将潜在语义表示精准地还原回原始文本。

关键区别在哪里？传统的词嵌入仍然与每个token一一严格绑定，每个token对应一个固定向量，本质上还是离散token序列的另一种表示。而Cola DLM通过VAE学习到的潜在变量，是一个可以连续平滑变化、能够被概率生成模型所建模的随机变量。这样一来，模型处理的核心对象就不再是“预测下一个token”，而是“建模整段文本所对应的全局语义状态”。

Text VAE结构示意图

关键二：先验模型并非普通的扩散过程

Cola DLM采用的并非大家熟悉的经典“加噪-去噪”式扩散，而是一个创新性地结合了块因果DiT（扩散变换器）与流匹配技术的组合模型。

这个组合具体做什么？可以简单理解：它从一个简单的先验分布（如高斯分布）出发，在连续时间内学习一个最优的向量场，从而将这个简单分布“运输”到真实文本数据所对应的复杂潜在分布上。本质上，它不依赖传统的迭代去噪，而是直接学习一条从噪声到语义的“最优传输路径”，将随机噪声平滑且高效地引导至有意义的语义表示。

Flow Matching示意图

更巧妙的是，它在这个语义生成路径上引入了块状因果结构——块内采用并行处理以实现局部语义的快速组织与生成，块间则严格遵循因果顺序以确保文本整体的逻辑连贯性。这相当于在连续的语义层面重新搭建了一套兼具效率与一致性的生成框架。

关键三：训练时明确的角色分工

连续扩散语言模型常面临一个挑战：学习到的语义表示很容易被后续的扩散生成过程所“带偏”，最终退化成一种“穿了马甲的token表示”——表面是连续向量，骨子里却仍在记忆词汇模式，未能形成真正抽象和稳定的语义概念。

Cola DLM的应对策略是：将表征学习与生成学习两个任务进行彻底分离与冻结。

编码器/解码器：只负责学习“如何将文字与语义表示进行高保真的相互转换”。
先验模型：只负责学习“如何从随机噪声生成符合真实分布的语义表示”。

在训练时，编码器在扩散先验模型的训练阶段基本保持“冻结”状态。为什么不让它一起参与学习？因为一旦让编码器去适应扩散过程的损失，它可能会为了局部最优而“偷懒”，将语义表示悄悄扭曲为“易于被先验模型预测的伪token形式”，从而回到离散建模的老路上。研究团队的目标是构建一个稳定、通用的语义空间，而非一个被特定生成任务所污染的中介层。因此，他们反其道而行，让先验模型主动去适应并学习这个固定的语义空间。

此外，他们还增加了一项关键的语义约束损失，以防止编码器在文本重建过程中发生“语义坍塌”（即不同句子映射到过于相似的表示）。实验表明，缺少这项约束，潜在表示确实会为了降低重建损失而发生有害的漂移。

关键四：将训练目标分解为三个可独立诊断的子任务

如果说前三点是工程上的巧思，那么第四点则是Cola DLM在模型评估与诊断框架上的扎实贡献。研究团队将整体训练目标清晰拆解为三个可以单独观察、度量和诊断的子任务：

重建能力：给定潜在语义表示，解码器能否准确、无损地还原出原始文本？
压缩能力：语义表示到底高效压缩了多少原文的冗余信息？这衡量了表征的信息密度。
拟合能力：先验模型能否学会潜在变量的真实数据分布？这决定了生成质量的上限。

这种分解的好处显而易见。传统的自回归模型将所有目标混杂在一个“预测下一个词”的损失函数中。当最终生成效果不佳时，很难精准定位问题究竟出在语义理解错误、记忆容量不足还是生成路径存在偏差上。而Cola DLM的框架则把账算得清清楚楚，哪个环节薄弱，通过对应的评估指标一看便知。这也是其模型能够展现出更稳定扩展趋势的底层原因之一——整个优化过程不再是黑箱，每个组件都可被单独诊断、分析和调整。

鉴于篇幅，这里直接呈现Cola DLM核心研究成果的概要：

Cola DLM核心成果总结

同一个追问，两种不同的回答

说到这里，很难不将字节的Cola DLM与何恺明团队的ELF放在一起对比。这两项几乎同期出现的重要工作，都在挑战一个被默认了二十年的核心假设：语言模型必须建立在离散的token序列之上。

为什么这个假设开始受到广泛质疑？一方面，自回归大模型发展至今，“预测下一个token”这条路径的固有瓶颈日益凸显——推理速度慢、长程依赖建模弱、训练目标（交叉熵）与人类评价的真实生成质量之间存在结构性差距。另一方面，扩散模型在图像、视频等连续模态生成上的巨大成功，促使人们深刻反思：离散token真的是语言智能必须依附的唯一载体吗？还是仅仅是历史选择和技术惯性形成的一种路径依赖？

近两年扩散语言模型的诸多探索，已经将这个问题摆上了台面，但大多数工作仍属于“离散派”，即在token层面进行扩散或掩码预测。直到ELF和Cola DLM相继出现，几乎同时给出了相同的答案：语言建模不必绑定在离散token上，连续语义空间是一条可行的新路径。

当然，在具体实现路径上，两者有所不同。简单对比来看：

ELF与Cola DLM对比图

可以打一个比方，ELF更像是一位创作者在原长度的embedding空间中反复构思、打磨整体语义，直到最后一步才落笔成文。而Cola DLM则像两个分工明确的协作部门，语义规划部门先确定“要表达什么核心思想”，文字润色部门再负责“具体如何遣词造句”。

两条路线在方法架构上虽有差异，但底层的关切完全一致：让语言建模发生在最适合其本质的连续表示空间中，不要被“token即语义”的默认框架所限制。从本质上讲，它们是对“如何更好表征语言”这同一个核心问题的两种不同而深刻的回答。

这标志着一个重要的研究趋势：是时候重新审视并重视连续扩散语言模型了。过去两年，扩散语言模型的舞台几乎由“离散派”主导。但ELF和Cola DLM这一前一后的亮相，让“连续语义路线”首次以一种严谨、可对比、可复现的姿态站到了学术前沿。

更值得注意的是，Cola DLM还指出了一个更宏大的技术愿景：长期以来，“统一多模态建模”面临的核心障碍之一，便是文本是离散符号序列，而图像、视频、音频等模态天然是连续信号。若想让它们真正进入同一个“潜在世界”进行统一理解和生成，必须有一个能将离散文本稳健映射到连续语义空间的通用接口。Cola DLM所构建的文本VAE恰好扮演了这个关键角色。

这或许才是字节此次研究的深层野心——并非仅仅在扩散语言模型的赛道上增加一名选手，而是为下一代语言模型搭建一座桥梁，将其无缝接入连续、统一的多模态智能广阔世界。

当然，Cola DLM团队自身也保持着相当的清醒与克制，他们在技术博客的最后写道：

Cola DLM只是这条道路上的一次早期尝试，但这条路本身值得继续走下去。

团队构成与跨领域启示

这项研究由字节跳动Seed团队主导，汇聚了来自香港大学、中国人民大学、北京大学、北京邮电大学、澳大利亚国立大学等多所国内外顶尖高校的研究者，覆盖语言建模、扩散模型、视频生成等多个前沿方向。

研究团队信息

第一作者郭泓灿，目前是北京邮电大学人工智能学院的大四本科生，自2025年6月起在字节Seed团队实习，研究兴趣集中于生成模型与推理模型的数学基础和学习动力学，Cola DLM详尽的技术博客正是出自他手。

郭泓灿介绍

通讯作者曾妍是字节Seed内部的关键人物，她是字节爆款视频生成模型Seedance系列的研发负责人。有资料显示，这位西安交大校友在2024年以校招生身份加入字节后，展现了卓越的技术领导力。Cola DLM中“分层潜变量+扩散先验”的核心思路，与视频生成领域长期采用的潜在扩散技术路线有明显的相通之处，体现了跨模态的技术迁移。

团队中还有一位有趣的“跨界”研究者——聂沈。他是中国人民大学高瓴人工智能学院李崇轩教授课题组的代表性成员，同时也是离散扩散语言模型LLaDA的第一作者。而LLaDA正是Cola DLM在论文中重点比较的离散扩散路线代表。某种意义上，这本身就颇具意味：一位离散扩散路线的核心贡献者，也积极参与了连续潜在路径的探索。这在一定程度上表明，Cola DLM所探讨的，已经超越了“如何用扩散模型生成文本”的具体方法，而是触及了更底层的根本问题：

文本智能究竟应该建立在什么样的状态空间之上？

其他几位核心作者同样背景显赫。Hengshuang Zhao是香港大学计算机系助理教授，曾在MIT CSAIL、牛津大学Torr Vision Group从事博士后研究，长期活跃于计算机视觉与生成建模领域。Qiushan Guo来自港大MMLab羅平组，同时也是字节Seedream图像生成模型的重要研发成员。

实际上，纵观整个作者名单，会发现一个非常有趣的现象：字节此次研发新一代语言模型，几乎是将“视频/视觉生成”领域的核心设计思路整体引入了语言领域。做潜在扩散的专家、做视频生成的负责人、做图像先验的研究者、以及做离散扩散语言模型的学者汇聚一堂，共同重新思考“文本该如何被更本质地建模”。

这或许也是为什么Cola DLM整体上呈现出与传统自回归语言模型路线截然不同的气质。因为它从一开始关注的焦点，就不只是“如何更好地生成文本序列”，而是尝试将语言重新安置回一个连续的、与多模态对齐的语义空间中，使其成为一种能够与图像、视频、音频自然对话和融合的智能模态。

而这，也许才是Cola DLM最值得业界和学界关注的地方：当文本不再仅仅是离散的token序列，而成为连续语义世界中的一种通用状态表示时，未来的统一多模态大模型将会呈现出怎样全新的面貌与能力。