Token必须被淘汰的深层原因

时间：2026-06-01 15:00

连续空间扩散语言模型：从离散到连续的范式革新周一晚上，我妻子分享了一篇网络文章，标题颇为引人注目，核心观点是“token必须消亡”。她询问其含义，我简要解释这代表着大语言模型领域出现了一条新路径。坦白说，我之前仅略知ELF和DLM（通过短视频），并未系统研读相关论文。身为职场人员，工作日难有精力处理

连续空间扩散语言模型：从离散到连续的范式革新

周一晚上，我妻子分享了一篇网络文章，标题颇为引人注目，核心观点是“token必须消亡”。她询问其含义，我简要解释这代表着大语言模型领域出现了一条新路径。坦白说，我之前仅略知ELF和DLM（通过短视频），并未系统研读相关论文。身为职场人员，工作日难有精力处理工作之外的事务，因此直到周六，才抽出时间仔细查阅了论文。借助AI协作，我整理出了这篇总结。

首先，明确我的立场。网络上的一些文章多少有些过度吹捧。不可否认，这确实是一项优秀的创新。然而，从客观角度审视，任何新生事物都应一分为二地看待——既要阐述其优势，也需指出当前的局限。首先，这一方向极具创新性；其次，它目前存在不少限制，在有效解决这些问题之前，距离工业界的实际应用仍有相当距离；最后，这确实是多模态领域一个潜在的演进方向，与现有架构进行融合，看起来也是一条颇具前景的路径。

先铺垫一些背景知识。例如，什么是连续，什么是离散。

1. 背景与动机

在深入技术细节之前，有必要先厘清一个根本性问题：什么是“连续空间”？什么是“离散空间”？为什么ELF和Cola DLM被称为“连续空间”模型？连续空间带来了哪些理论与实践的独特优势？此外，这些技术路线与人类自身的写作认知过程有何关联？本章将从这四个维度出发，为后续的技术剖析奠定基础。

1.1 连续空间与离散空间的定义与判定

在数学上，空间的性质决定了在其中进行运算的基本法则。离散空间在拓扑学上被定义为每个子集都是开集的空间，其核心特征是点与点之间是孤立的，不存在“无限接近”的概念，通常由有限集或可数无穷集（如整数集）构成。而连续空间，通常指欧几里得空间或流形，点与点之间可以无限接近，支持极限、导数和积分等微积分运算。

通俗而言，离散空间如同楼梯的台阶——你只能站在第1级、第2级或第3级，永远无法站在“第2.37级”；连续空间则像一道斜坡，你可以在任意位置停留，能够无限微调你的步伐。在深度学习中，这一区别直接决定了模型能否利用标准的反向传播算法进行端到端优化。

离散空间与连续空间对比

图1：离散空间与连续空间的直观对比。左边离散空间像台阶，只能跳跃前进；右边连续空间像平滑曲面，支持任意精细的调整。

在深度学习领域，判断一个模型是在连续还是离散空间操作，主要看其状态空间性质和优化机制。连续空间模型在实数向量空间内运行，支持端到端的梯度流动和反向传播优化。离散空间模型则直接在有限的、不可微的符号集合上操作，通常需要借助Gumbel-Softmax或直通估计器（STE）等特殊技巧来近似传递梯度。下表从五个关键维度给出了清晰的判定标准：

判定维度	连续空间模型	离散空间模型
状态空间	不可数无穷集（如ℝᵈ）	有限集或可数集（如词表{1,…,V}）
可微性	全程可微，支持反向传播	不可微，需近似梯度估计
噪声过程	高斯扩散（连续时间SDE/ODE）	掩码/吸收态跳跃（离散马尔可夫链）
中间状态	任意实数向量，可插值	必须是合法符号，无“中间态”
度量结构	欧氏距离、余弦相似度等连续度量	离散度量（相同=0，不同=1）

这五个维度的差异，从根本上决定了连续空间模型和离散空间模型在训练效率、生成质量和可控性上的不同表现。理解这些差异，是把握ELF和Cola DLM创新价值的前提。

1.2 为什么ELF和Cola DLM是连续空间模型

一个常见的疑问是：GPT这类自回归语言模型在内部计算时也使用嵌入向量（Embedding），它们难道不也是在连续空间里操作吗？对这个问题的回答，揭示了“连续空间模型”这一称号的真实含义。

尽管GPT内部计算时确实使用了连续向量，但它本质上仍被视为离散模型。原因在于，GPT的输出层通过Softmax函数在预先定义好的有限词表上生成分类分布。这种建模方式存在明显问题——即著名的“Softmax瓶颈”：输出分布的秩受限于隐藏层维度，当词表规模远大于隐藏层维度时，模型难以准确表达复杂的多峰概率分布。更重要的是，自回归模型在生成时，每一步都必须在离散token上进行“硬采样”——将连续的向量强行映射回离散的token。这种“快照式”的离散化切断了语义的平滑过渡，导致模型无法在连续语义空间中做全局优化。

ELF和Cola DLM则通过把扩散过程完全置于连续空间，从根本上打破了上述限制。下表能清晰看出三者的本质差异：

模型	空间定义	核心机制	与传统模型的区别
GPT（自回归）	内部连续，输出离散	Softmax在有限词表生成分类分布	每步硬采样，存在Softmax瓶颈
ELF	连续嵌入空间	FlowMatching在嵌入向量空间定义线性速度场	延迟离散化：仅最终步映射Token
ColaDLM	连续潜在空间	Text VAE压缩文本至潜在空间，DiT建模语义先验	分层架构：全局语义与局部文本解耦

ELF的核心突破在于“延迟离散化”——在整个扩散过程中始终保持在连续嵌入空间，仅在生成的最后一步才进行token映射。这意味着模型可以在连续空间里自由地塑造和优化文本的语义结构，避免了每步离散化带来的误差累积。Cola DLM则更进一步，通过Text VAE把整段文本压缩成一个紧凑的连续潜在表示（可理解为“语义蓝图”），在潜在空间中进行扩散建模，最后再通过解码器恢复成文本。这种分层架构把“说什么”（全局语义组织）和“怎么说”（局部词汇选择）彻底解耦了。

1.3 连续空间的理论与实践优势

连续空间之所以成为语言建模的前沿方向，在于它在信息论、优化理论和工程实践三个层面都展现出明显优势。

首先，从信息论视角看：更高的信息容量。根据香农-哈特利定理，连续通道的容量受带宽和信噪比限制，理论上允许模型在向量空间内进行任意精细的语义微调。而离散通道的容量受限于符号集大小，每个token只能携带有限的信息。这意味着连续空间模型可以在每一步扩散中传递更丰富、更细腻的语义信号，而不是被限制在“这个词对不对”的二元判断里。

再看优化视角：平滑的损失曲面。在连续空间里，模型输出的是实数向量，损失函数（如均方误差）处处可微，梯度可以平滑地反向传播。而在离散空间里，token之间的跳转是离散的，梯度估计需借助Gumbel-Softmax重参数化或REINFORCE等技巧，导致训练信号噪声大、方差高。这种优化上的差异直接体现在训练效率和最终性能上——ELF仅用10B训练token就超过了需要100B训练token的离散扩散基线模型，很大程度上归功于连续空间带来的优化优势。

然后是生成质量视角：语义平滑性与插值性。连续潜在空间允许进行向量算术（例如经典的“国王 – 男人 + 女人 = 女王”）和路径插值。通过在空间里“行走”，模型能生成语义平滑过渡的文本，不会像离散模型那样出现突兀的语义跳跃。这一特性对长文本生成尤为重要——它让模型可以在生成过程中逐步“塑造”文本的全局语义结构，而不是被逐个token的局部决策牵着走。

最后看计算效率视角：并行解码与可控性。不同于自回归模型逐token串行生成的线性复杂度，连续扩散模型天然支持并行解码。已有研究显示，像Mercury Coder这样的连续扩散模型，已能实现超过1000 tokens/s的生成速度，通过并行细化显著提升了长文本生成的吞吐量。此外，连续空间天然支持无分类器引导（CFG），用户可以通过调节引导强度在生成质量和多样性之间灵活权衡，这是离散扩散模型难以做到的。

1.4 认知科学视角：人脑写作与连续建模的关联

有一个问题值得深入思考：人类在写作时，大脑是如何工作的？这个过程与连续空间扩散模型是否存在深层对应？认知科学的研究为我们提供了颇具启发性的答案。

你可能也有过这种体验：写一篇文章前，脑海里先浮现出一个模糊的“整体感觉”——大致知道要写什么主题、表达什么观点、文章该是怎样的结构。随后，这个模糊的想法逐渐清晰，变成一段段、甚至一句句的具体文字。这个过程并非严格的从左到右线性展开，而是充满跳跃、回溯和反复修改。认知科学的研究证实，这恰恰是人类语言生成的真实机制。

认知科学中的Levelt模型（语言产生的“蓝图”理论）指出，人类语言生成遵循“概念化→公式化→发音”的序列。其中，概念化阶段产生的是非语言的、抽象的意图——一种前语言的“思维语言”。神经科学研究进一步证实，大脑的前颞叶（ATL）作为语义枢纽，在具体的词汇选择（由左额下回负责）之前就已经完成了抽象语义的整合。这与Cola DLM在连续潜在空间中构建“语义蓝图”、再经由解码器将其转化为具体文本的过程，高度相似。

Flower和Hayes的写作认知过程理论则更直接地描述了写作行为。他们强调写作是递归且非线性的，包含计划、翻译和审查三个不断循环的过程。作家不会严格地从第一个字写到最后一个字，而是先规划整体结构，再填充具体内容，然后回头修改，如此往复。这种“从整体到局部、从模糊到精确”的生成模式，与扩散模型从噪声到清晰文本的迭代细化过程惊人地一致。

从认知双过程理论的视角看，这种对应关系就更为清晰了。自回归模型“从左到右逐词生成”的线性逻辑，更接近那种低级的、自动化的关联性思维（System 1）——快速、直觉，但缺乏全局规划。而连续空间扩散模型通过全局优化和并行细化，更贴近人类进行复杂写作时的高级推理思维（System 2）——缓慢、深思熟虑、具有全局意识。正如人脑写作时“先有个大概的思路，然后再是一段一段、甚至一句一句地蹦出来”——这个“大概的思路”就是连续潜在空间中的语义蓝图，而“一段一段蹦出来”则对应从连续语义到离散文本的解码过程。

这种认知对应关系不只是理论上的趣味类比，更具有深刻的工程启示：如果人类大脑天然采用“连续语义规划 + 离散文本生成”的分层架构，那么让机器模仿这一架构，或许正是通向更高质量文本生成的关键路径。ELF和Cola DLM的出现，正是这一思路的技术实现。

1.5 语言模型的三类演进

有了以上背景知识的铺垫，我们现在可以更清晰地审视语言建模领域的三类技术路线。

第一类：自回归模型（Autoregressive, AR）。以GPT系列为代表的自回归模型，遵循一个极其朴素的原则：从左到右，逐词预测。给定前文“今天天气真”，模型预测下一个token是“好”；然后基于“今天天气真好”，再预测“晴”——如此循环往复。这种“串行”生成方式自然契合人类阅读习惯，并且随着模型规模和训练数据的指数级增长，展现出了惊人的涌现能力。然而，它的阿喀琉斯之踵同样明显：推理必须串行，无法并行加速；生成方向固定，缺乏全局规划能力——就像一个人只能边想边说，无法先打腹稿再一气呵成。从1.4节的认知视角来看，这本质上就是只有System 1、没有System 2的生成模式。

第二类：离散扩散模型（Discrete Diffusion）。扩散模型在图像生成领域的巨大成功，启发研究者将这一思路引入语言领域。MDLM和LLaDA是这条路径的代表。它们的核心思想是：先对文本进行“破坏”（比如随机掩码部分token），再训练模型“修复”这些破坏。生成时，从完全掩码的序列出发，逐步去掩码，最后得到完整文本。这种方式天然支持并行解码，理论上可以一次生成多个token。但问题在于，离散空间里的“加噪”和“去噪”远不如连续空间自然——你需要精心设计转移矩阵来定义token之间的跳转概率，采样步数往往需要上千步才能保证质量，效率优势大打折扣。从1.1节的判定标准来看，离散扩散模型仍然受困于不可微的离散状态空间。

第三类：连续扩散模型（Continuous Diffusion）。这是本文重点讨论的前沿方向，以ELF和Cola DLM为代表。它们的核心洞察是：虽然文本最终表现为离散的token序列，但语言的“意义”天然是连续的。将离散token映射到连续向量空间（嵌入空间或潜在空间），在此连续空间里执行扩散过程，最后再映射回离散token。这就像先把文字翻译成一种“思维语言”，在思维层面进行组织和优化，再翻译回文字——和1.4节里Levelt模型的“概念化→公式化”过程如出一辙。ELF和Cola DLM分别代表了这一范式的两种技术路径，我们将在后面详细介绍。

1.6 为什么需要连续空间？

要理解连续空间的优势，不妨借助一个类比。想象你要创作一幅画：

• 自回归模型就像一笔一笔地画，每一笔都基于之前画过的部分，但你无法擦除或修改之前的笔触。画到一半发现构图偏了，只能硬着头皮继续。

• 离散扩散模型像是用马赛克拼贴——每个token是一块固定颜色的小方块。你可以同时调整多块马赛克，但每块的颜色只能从有限的调色板里选，无法微调。

• 连续扩散模型则像是在画布上用连续的颜料作画。你可以同时调整整幅画的色调、构图、明暗关系，颜色可以无限微调，直到满意后再“离散化”为最终的笔触。

三种生成范式的画画类比

图2：三种语言生成范式的画画类比。自回归模型像逐笔绘制；离散扩散像马赛克拼贴；连续扩散像自由调配颜料后再定型。

结合1.3节的分析，连续空间的优势具体体现在三个方面：

第一，梯度流动的自然性。在连续空间里，模型输出的是实数向量，损失函数（如均方误差）处处可微，梯度可以平滑地反向传播。而在离散空间里，token之间的跳转是离散的，梯度估计需借助Gumbel-Softmax重参数化或REINFORCE等复杂技巧，训练信号噪声大、方差高。

第二，成熟技术的直接复用。图像生成领域在过去几年积累了大量连续扩散技术——Flow Matching、无分类器引导（CFG）、ODE求解器加速等。在连续嵌入空间里，这些技术几乎可以零成本迁移。ELF论文的核心卖点之一，就是“只需对离散域做最小适配”，就能让连续扩散语言模型高效运行。

第三，全局语义的自然建模。连续向量天然支持插值、平滑过渡和层次化组织。这意味着模型可以在生成过程中逐步“塑造”文本的全局语义结构，而不是被逐个token的局部决策束缚。Cola DLM正是利用这一特性，将全局语义组织和局部文本实现解耦——正如人脑在写作时先有个“大概思路”再逐句表达。

1.7 核心概念图解

在深入技术细节前，我们先建立几个关键概念的直观理解：

嵌入空间（Embedding Space）：将离散token映射为连续向量的空间。例如，token“猫”可能被映射为一个768维的向量。在这个空间里，语义相近的词（如“猫”和“狗”）距离较近，语义无关的词距离较远。ELF直接在这个空间里进行扩散。

潜在空间（Latent Space）：通过VAE这类编码器，将整个文本序列压缩成的紧凑连续表示。与嵌入空间不同，潜在空间的每个向量不是对应单个token，而是对应一段文本的“语义摘要”——类似于人脑在概念化阶段产生的那种“前语言意图”。Cola DLM在这个空间里进行扩散。

流匹配（Flow Matching）：一种训练扩散模型的现代方法。传统扩散模型通过多步加噪-去噪来学习数据分布，而Flow Matching直接学习从噪声到数据的“速度场”——就像学习一个向量场，告诉每个位置的粒子该朝哪个方向、以多快速度移动，才能最终到达数据分布。这种方法训练更稳定、采样更高效。

2. 技术路线对比

2.1 自回归模型：GPT范式

自回归语言模型将文本的联合概率分解为条件概率的乘积：

训练时，模型学习根据前文预测下一个token。推理时，逐token采样，每次采样结果拼接到序列末尾，用于预测下一个token。

优势：训练目标与人类阅读习惯一致，自然适配从左到右的文本结构；随着规模扩大展现出强大的涌现能力；推理时可以利用KV缓存（KV-Cache）加速。

劣势：推理必须串行，无法并行生成；缺乏全局规划，可能出现前后不一致；对生成顺序的固定假设限制了灵活性（比如无法先写结尾再写开头）。

2.2 离散扩散模型：MDLM与LLaDA

离散扩散模型在token空间直接操作。以掩码扩散（Masked Diffusion）为例：

• 前向过程：随机选择部分token替换为特殊的[MASK]标记，破坏比例随时间递增。

• 反向过程：训练模型从部分掩码的序列中恢复原始token。生成时从全掩码序列出发，逐步去掩码。

MDLM在LM1B基准上超越了同等规模的GPT-2，LLaDA进一步将这一范式扩展到更大规模。但它们的共同局限是：采样步数多（通常需要1024步），而且离散空间里的转移矩阵设计复杂。

2.3 连续扩散模型：ELF与Cola DLM

连续扩散模型将文本映射到连续空间后再执行扩散。ELF和Cola DLM代表了两种不同的技术路径：

• ELF（嵌入空间路径）：直接在token嵌入空间进行Flow Matching，用共享权重网络在所有时间步去噪，仅在最终步通过嵌入矩阵的逆映射回到离散token。设计极简，与图像扩散模型的技术栈高度对齐。

• Cola DLM（潜在空间路径）：先通过Text VAE将文本压缩到低维潜在空间，在潜在空间用Block-Causal DiT建模全局语义先验，最后通过VAE解码器恢复文本。设计更复杂，但实现了全局语义与局部文本的解耦。

ELF与Cola DLM架构对比

图3：ELF与Cola DLM架构对比。ELF是单阶段极简设计，直接在嵌入空间去噪；Cola DLM是三阶段分层架构，通过VAE实现语义解耦。

2.4 三类方法对比总览

维度	自回归(GPT)	离散扩散(MDLM/LLaDA)	连续扩散(ELF)	连续扩散(Cola DLM)
操作空间	离散token	离散token	连续嵌入空间	连续潜在空间
生成方式	逐token串行	并行去掩码	并行去噪	块级并行去噪
采样步数	L步(序列长度)	1024步	32步	50-200步
全局语义	隐式(通过注意力)	隐式	隐式	显式(分层建模)
CFG支持	不适用	有限	原生支持	支持
训练复杂度	低	中	低	高(三阶段)
已验证规模	>100B参数	~1B参数	105M参数	~2B参数

3. 创新点与优势分析

3.1 ELF的创新与优势

创新一：极简的连续扩散设计。ELF最大的创新在于证明了“少即是多”。与早期连续DLM那种每一步都做离散化回归的复杂设计不同，ELF只需要在最终步做一次离散化。这种极简设计带来了两个直接好处：一是训练目标简洁（MSE + CE），梯度流动顺畅；二是推理路径干净，ODE求解器能高效运行。

创新二：共享权重消除独立解码器。ELF发现嵌入权重矩阵天然可以同时扮演编码器和解码器的角色——既能把token映射为向量，也能把向量映射回token。这一发现消除了对独立解码器的需求，减少了参数量，同时还确保了嵌入空间和token空间的一致性。消融实验证实，共享权重的效果优于独立解码器，因为模型在嵌入空间里优化的方向，直接对应着正确的token方向。

创新三：CFG的自然适配。由于ELF全程在连续空间运行，图像扩散模型里广泛使用的CFG技术可以零成本迁移。CFG通过调节引导强度，在生成质量和多样性之间灵活权衡，这是离散扩散模型难以实现的。

优势总结：ELF用105M参数、10B训练token、32采样步数，在生成困惑度上超过了170M参数、100B训练token、1024采样步数的MDLM和Duo。这一结果不仅证明了连续扩散路线的有效性，更展示了它的效率优势——更少的参数、更少的数据、更少的步数，换来更好的质量。

3.2 Cola DLM的创新与优势

创新一：全局语义与局部文本的显式解耦。Cola DLM最核心的创新在于通过分层潜在变量模型，将文本生成分解成两个可以独立优化的子问题：全局语义组织（由扩散模型在潜在空间完成）和局部文本实现（由VAE解码器完成）。这种解耦使得扩散模型可以专注于“大局”——文本的主题、结构、逻辑流——而无需纠缠于具体的措辞选择。

创新二：潜在先验传输的新范式。Cola DLM将扩散过程重新定义为“潜在先验传输”而不是“观测恢复”。这一视角转换具有深远意义：它意味着扩散不再是对原始数据的逐步逼近，而是对语义结构的逐步塑造。这为将扩散模型应用到更抽象的生成任务（如规划、推理）打开了大门。

创新三：强缩放行为的验证。Cola DLM在高达约2000 EFLOPs的计算量下进行了缩放实验，证明其性能随规模增长的趋势与AR模型相当。这是连续扩散语言模型首次在如此大的计算量下验证缩放行为，为实际部署提供了信心。

创新四：多模态统一的天然接口。由于Cola DLM的潜在空间是连续的、语义压缩的，它天然可以作为连接文本和其他连续模态（图像、音频、视频）的桥梁。论文明确指出这一设计“能自然地扩展到其他连续模态”，暗示了统一多模态生成架构的可能性。

3.3 两种方法的优势互补

ELF和Cola DLM虽然同属连续扩散路线，但设计哲学形成了有趣的互补：

• ELF追求极简：单阶段训练、共享权重、最小离散化，适合快速实验和资源受限的场景。

• Cola DLM追求解耦：三阶段训练、分层建模、显式语义控制，适合需要精细语义控制和大规模部署的场景。

两者共同证明了连续扩散语言模型的可行性，并从不同角度展示了这一范式的潜力。

4. 两种连续方法深度剖析

4.1 ELF：嵌入式语言流

ELF由MIT团队提出，其设计哲学是“极简主义”——用最少的离散化处理，让连续扩散在语言建模中高效运行。

4.1.1 Flow Matching框架

ELF的核心数学框架是连续时间流匹配。给定离散token序列，首先通过嵌入层映射为连续向量。然后定义一段从噪声到数据的线性插值路径：在时间t=0时是纯噪声，在t=1时是目标嵌入。模型学习预测这个从噪声指向数据的速度场——也就是数据变化的方向和速率。训练时，模型接收带噪的嵌入向量和时间信息，输出预测的速度向量，与真实速度计算均方误差。这种设计使得训练目标处处可微，梯度流动顺畅。

ELF概念示意图

图：ELF概念示意图，展示从高斯噪声到连续嵌入再到离散token的去噪轨迹。

4.1.2 共享权重设计

ELF最精妙的设计在于离散化策略。与早期连续DLM那种每一步都试图回归离散token的做法不同，ELF在整个扩散过程中始终保持在连续嵌入空间，只在最终时间步执行一次离散化。离散化通过共享的嵌入权重矩阵实现：这个矩阵既是嵌入层的权重（把token映射为向量），也是“逆映射”的权重（把向量映射回token概率）。这种权重共享确保了嵌入空间和token空间的一致性——模型在嵌入空间里优化的方向，天然对应着正确的token方向。消融实验证实，共享权重的效果优于独立解码器。

4.1.3 CFG引导

由于ELF全程在连续空间运行，图像领域成熟的无分类器引导（CFG）技术可以直接挪用。CFG通过混合条件生成和无条件生成的速度场来增强生成质量：引导强度参数控制模型在“忠实于条件”和“保持多样性”之间的平衡。当参数为1时，退化为标准条件生成；参数越大，模型越忠实于条件，但可能牺牲多样性。

4.1.4 实验亮点

ELF在OpenWebText上的实验结果令人印象深刻：

模型	参数量	训练Token	采样步数	生成困惑度(Gen. PPL)
MDLM	170M	100B	1024	24.1
Duo	170M	100B	1024	21.5
ELF	105M	10B	32	18.2

ELF用更少的参数（105M vs 170M）、更少的训练数据（10B vs 100B tokens）、更少的采样步数（32 vs 1024），实现了显著更低的生成困惑度。这一结果有力地证明了连续扩散路线的潜力。

ELF性能对比

图：ELF性能对比，在没有蒸馏的情况下，用更少的采样步数实现了更低的生成困惑度。

4.2 Cola DLM：连续潜在扩散语言模型

Cola DLM由字节跳动Seed团队联合多所高校提出，其设计哲学是“分层解耦”——将文本生成分解为全局语义组织和局部文本实现两个层次。

4.2.1 分层信息分解的理论基础

Cola DLM将文本生成建模为分层潜在变量模型。核心思想是：文本的联合概率可以分解为两部分——潜在先验（描述文本的全局语义结构）和条件似然（从语义到具体文本的映射）。训练目标为最大化证据下界（ELBO），这个公式揭示了Cola DLM的核心设计：后验网络负责将文本压缩为语义表示，先验网络负责学习语义空间的分布，似然网络负责从语义恢复文本。三者各司其职，实现了信息的分层处理。

4.2.2 三阶段工作流程

Cola DLM的训练和推理分为三个精心设计的阶段：

第一阶段：Text VAE预训练。训练一个变分自编码器，将文本压缩到连续潜在空间。编码器将离散token序列映射为高斯分布的参数（均值和方差），解码器从潜在表示重建文本。这一阶段的目标是学习一个“语义完备”的潜在空间——相似的文本在潜在空间里距离相近，而且潜在表示包含足够信息来重建原文。

第二阶段：Block-Causal DiT先验学习。在冻结的VAE潜在空间里，训练一个扩散模型来学习潜在先验。这里采用了块因果结构：将潜在变量分成若干块，每块的生成依赖于之前所有块。这种设计在保持一定自回归结构（保证生成连贯性）的同时，允许块内并行生成。训练采用Flow Matching目标，学习从噪声到潜在表示的平滑传输路径。

第三阶段：推理。给定前缀文本，先通过VAE编码器将其映射到潜在空间，然后在潜在空间里用Block-Causal DiT进行扩散采样，最后通过VAE解码器将生成的潜在表示解码为文本。

Refer to caption

图：Cola DLM架构图，展示分层结构处理文本信息的完整流程。

4.2.3 潜在先验传输：一个统一视角

Cola DLM提出了一个很有洞察力的概念——“潜在先验传输”。传统扩散模型（包括ELF）的扩散过程可以理解为“观测恢复”——从噪声逐步恢复原始数据。而Cola DLM的扩散过程是“先验传输”——在潜在空间里，从无信息先验（高斯噪声）逐步传输到有信息的语义先验。这一视角转换的意义在于：扩散不再是对token级细节的恢复，而是对全局语义结构的逐步塑造。文本的局部细节由VAE解码器负责，扩散模型专注于“大局观”。

4.2.4 实验验证

Cola DLM通过四个研究问题系统验证了其设计：

• 全局语义结构：Cola DLM在捕捉长程语义一致性方面优于离散扩散模型LLaDA，验证了分层建模的有效性。

• 潜在空间分析：VAE潜在空间在语义重要性、平滑度等维度上显著优于固定空间和演化空间，PPL从4.12降至3.42。

• 扩散消融：块大小128、Cosine噪声调度、200去噪步数、CFG尺度2.0的组合达到了最优生成质量0.88。

• 缩放性能：在高达约2000 EFLOPs的计算量下，Cola DLM展现出与AR模型相当的强缩放行为。

Cola DLM缩放性能

图：Cola DLM缩放性能曲线，验证了其强扩展性。

4.3 关键差异对比

维度	ELF	Cola DLM
连续空间类型	Token嵌入空间	VAE潜在空间
空间维度	与嵌入维度相同(如768)	压缩后更低(如512)
训练阶段数	单阶段(端到端)	三阶段(VAE→DiT→解码)
离散化时机	仅最终步(t=1)	推理时通过VAE解码器
全局语义建模	隐式(通过注意力)	显式(分层潜在变量)
CFG支持	原生支持	支持
已验证规模	105M参数	~2B参数
架构复杂度	低(接近标准扩散)	高(多组件协同)
多模态潜力	有限	强(潜在空间天然适配)

5. 当前缺点与未来展望

5.1 共同挑战

挑战一：连续到离散的信息损失。无论ELF还是Cola DLM，最后都需要将连续表示映射回离散token。这个映射过程不可避免地存在信息损失——连续空间里的微小扰动可能导致离散token的跳变，而且连续空间里“合理”的向量未必对应任何有意义的token序列。如何设计更鲁棒的离散化策略，是连续扩散DLM面临的核心理论问题。

挑战二：大规模验证不足。ELF目前仅在105M参数规模验证过，Cola DLM验证到约2B参数。与GPT-4等数千亿参数的AR模型相比，连续扩散DLM在大规模下的行为仍是未知数。扩散模型的训练和推理在大规模下的计算效率、数值稳定性、超参敏感性，都需要进一步研究。

挑战三：推理效率仍不及AR模型。虽然ELF的32步采样已远少于MDLM的1024步，但相比AR模型利用KV-Cache的单步推理，扩散模型的多步迭代仍存在固有开销。在需要低延迟的在线服务场景里，这一差距可能成为关键瓶颈。

挑战四：评估体系不完善。当前连续扩散DLM主要使用生成困惑度（PPL）作为评估指标，但PPL能否全面反映文本质量，这一问题的答案尚存疑。在人类评估、下游任务表现、长文本一致性等维度上的评估，仍然缺乏。

5.2 ELF的特定局限

规模瓶颈待验证。ELF的105M参数实验虽然展示了效率优势，但共享权重设计在大规模下是否仍然有效？嵌入空间的表达能力是否会成为瓶颈？这些问题需要更大规模的实验来回答。

嵌入空间的表达能力上限。ELF直接在token嵌入空间里操作，而嵌入空间的维度通常是768或1024。这个空间能否承载足够丰富的语义信息来支持复杂文本的生成？相比之下，Cola DLM的潜在空间经过VAE压缩，可能具有更好的语义组织性。

条件生成任务覆盖有限。ELF在WMT14翻译和XSum摘要上进行了条件生成实验，但尚未在更复杂的条件生成任务（如指令遵循、多轮对话）上验证过。

5.3 Cola DLM的特定局限

三阶段训练的复杂性。Cola DLM需要依次训练VAE、DiT先验，还要协调解码器，训练流程复杂，超参众多。任何一个阶段的缺陷都可能影响最终效果，调试和优化成本很高。

VAE质量是瓶颈。整个系统的生成质量受限于VAE的重建质量。如果VAE在压缩过程中丢失了重要信息，后续的扩散模型无论如何优化也无法挽回。VAE的“后验坍塌”问题是潜在变量模型的老难题。

块大小超参敏感。Block-causal结构里的块大小直接影响生成质量和效率之间的权衡。块太小则退化为近似自回归，失去并行优势；块太大则可能破坏局部连贯性。最优块大小可能因任务和文本长度而异。

5.4 未来发展方向

方向一：与AR模型的融合。连续扩散DLM不一定是AR模型的替代者，两者可以互补。例如，用扩散模型规划文本的全局结构（章节、段落主题），用AR模型填充局部细节；或者用扩散模型生成多个候选续写，用AR模型做排序和选择。这种“扩散规划 + 自回归执行”的混合架构，可能是近期最实用的方向。

方向二：多模态统一建模。Cola DLM的连续潜在空间天然适合作为多模态表示的“通用语言”。将文本、图像、音频分别编码到共享的潜在空间，用统一的扩散模型做跨模态生成和转换，这是一个很有前景的研究方向。

方向三：更高效的离散化策略。如何减少连续到离散映射的信息损失？可能的方向包括：学习更好的嵌入空间结构（比如通过对比学习）、使用向量量化（VQ）技术桥接连续和离散、设计端到端的可微分离散化层。

方向四：推理加速。扩散模型的推理加速是一个活跃的研究领域。蒸馏技术（如渐进蒸馏）、更高效的ODE求解器、一步生成模型等，都有可能将连续扩散DLM的推理步数进一步压缩到个位数。

方向五：端到端训练。Cola DLM的三阶段训练虽然有效，但各阶段的目标可能不完全对齐。探索端到端的联合训练方法，让VAE和扩散模型协同优化，可能进一步提升性能。

6. 总结

连续空间扩散语言模型代表了语言建模范式的一次重要演进。从自回归的“逐词串行”，到离散扩散的“并行去掩码”，再到连续扩散的“语义空间塑造”，每一次跃迁都拓展了我们对“机器如何生成语言”这一问题的理解。

ELF和Cola DLM分别从“极简”和“解耦”两个角度探索了连续扩散路线的可行性。ELF证明了连续扩散可以比离散扩散更高效——更少的参数、更少的数据、更少的步数、更好的质量。Cola DLM则证明了分层建模可以将全局语义和局部文本解耦，为更可控、更结构化的文本生成奠定了基础。

最后需要强调的是，连续扩散DLM并非要“取代”自回归模型，而是提供了一种互补的生成范式。AR模型在流式生成、低延迟场景里仍然具有不可替代的优势；而扩散模型在并行生成、全局规划、可控性方面展现了独特价值。未来的语言模型，很可能不是非此即彼的选择，而是根据任务需求灵活组合多种范式的混合系统。ELF和Cola DLM的出现，为这一未来图景增添了重要的技术拼图。

参考文献

[1] arxiv.org - ELF: Embedded Language Flows (2026-05-11)

[2] arxiv.org - Continuous Latent Diffusion Language Model (Cola DLM) (2026-05-07)

[3] github.com - ELF官方代码仓库

[4] github.io - Cola DLM项目主页

来源：https://cloud.tencent.com.cn/developer/article/2679622

短视频

上一篇WPS AI提升文档创作效率与智能化内容优势 下一篇极客搜索AI导航：技术人一站式搜索平台评测

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。