何恺明发布首个语言模型 105M参数突破自回归框架

首页

业界动态

热心网友

转载

2026-05-13

何恺明，这位计算机视觉领域的标志性人物，这次将目光投向了语言模型。不过，他带领团队探索的，并非当下如ChatGPT所采用、基于“预测下一个词元”的自回归范式。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

他们选择的，是一条在过去几年图像生成领域大放异彩，如今正被越来越多研究者引入文本生成的新路径：扩散语言模型。

在其团队的最新论文中，一个名为“ELF：Embedded Language Flows”的全新连续扩散语言模型被提出。

与许多仍在词元（token）层面进行扩散的语言模型不同，ELF将整个生成过程都置于连续的嵌入（embedding）空间中进行，直到最后一步，才重新离散化，将表示变回词元。

正是凭借这一设计，ELF仅用1.05亿参数、450亿训练词元、32步采样，就在多项指标上正面超越了一批主流的扩散语言模型。

最直观的一项成果是，在OpenWebText数据集上，它将生成困惑度压到了24。这个指标可以理解为，让一个强大的语言模型为生成结果“打分”，数值越低，意味着生成文本的质量越高、越接近人类自然语言。

在与同类模型的对比中，ELF在训练词元少近10倍、采样步数更少的情况下，反而取得了更低的生成困惑度。

可以说，在过去很长一段时间里，扩散语言模型的主要进展都集中在离散路线。而ELF首次有力地证明：连续的方法，不仅可行，而且效果出众。

ELF到底做了什么

要理解ELF的创新，首先得厘清当前扩散语言模型的两条主流技术路线。

一派是以MDLM、Duo为代表的“离散派”，直接在离散的词元空间进行扩散。另一派则是“连续派”，如Diffusion-LM、CDCD等，它们先将词元映射为连续的嵌入向量，然后在连续空间中进行去噪。

此前，离散路线似乎更受青睐，原因看似不言而喻：语言本身就是离散的。然而，何恺明团队提出了一个反向的洞见——问题或许不在于“语言必须离散”，而在于前人并未将“连续”路线贯彻到底。

早期的连续方法，如Diffusion-LM，虽然在嵌入空间去噪，但每一步仍需计算词元级别的交叉熵损失，相当于将连续的生成轨迹始终“拴”在离散的词表上。后来的LD4LG、Cosmos等潜在扩散模型，去噪过程连续了，却需要额外训练一个解码器将潜在表示转换回词元，引入了新的模块。

ELF的思路则更为彻底：它将所有的去噪过程，完全保留在连续的嵌入空间内；直到最终时刻（t=1），才一次性映射回离散词元。

具体而言，在训练阶段，离散词元先被编码成连续嵌入，再加噪形成带噪表示。模型的任务，要么是将其还原为干净的嵌入（使用均方误差损失），要么直接预测词元（使用交叉熵损失）。

在推理生成时，模型从高斯噪声出发，全程在连续空间中进行去噪。直到最后一步，才切换到解码模式，将最终的嵌入表示投射回词元。

ELF首次清晰地将“连续表示”与“离散输出”这两个过去常被纠缠处理的问题拆解开来：中间的去噪过程完全交给连续空间自由演化；最终的语言生成，则仅作为最后一步的离散化操作。

这种设计，既避免了每一步都强行向词表对齐所带来的约束，也无需引入额外的解码器模块。整个流程真正实现了“连续的归连续，离散的归离散”。而这，正是ELF能够以更少的采样步数和训练数据，取得更优效果的关键所在。

ELF不是“先扩散，再解码”

在具体实现上，ELF系统地解决了三个核心问题：词元如何变为连续表示？在连续空间中如何有效去噪？最后又如何变回词元？

把token变成连续embedding

应用连续扩散于语言生成，第一步是将离散的词元序列转化为连续的向量表示。ELF默认采用预训练的T5编码器来生成具有上下文信息的双向嵌入。值得注意的是，这个编码器仅在训练阶段使用，推理时不会增加额外计算负担。

在连续embedding空间里做Flow Matching

获得连续表示后，ELF在嵌入空间中执行流匹配。简单来说，流匹配定义了一条从噪声数据到干净数据的平滑轨迹：起点是高斯噪声，终点是目标嵌入，中间状态是两者的线性插值。

与传统直接预测“速度场”的做法不同，ELF沿用了团队此前在《Back to Basics》论文中的思路——直接预测干净的嵌入本身。其训练目标是最小化预测嵌入与真实嵌入之间的均方误差。

采用这种“x-预测”方式有两个主要原因：其一，它在高维嵌入空间（如768维或更高）中表现更稳定；其二，它天然地与最终“预测干净词元”的目标对齐。实验也表明，若采用速度场预测并共享权重，模型性能会显著下降。

从连续embedding，再回到离散token

语言生成的最终输出必须是离散词元。因此，ELF在最后一个时间步，需要将连续的嵌入表示映射回词元空间。

巧妙的是，ELF并未像许多潜在扩散模型那样训练一个独立的解码器。它将最后一步视作一次“连续到离散的解码”，而这个解码器与前面的去噪器，其实是同一个神经网络。

为了确保最后一步的训练不至于太简单（因为此时输入已非常接近干净嵌入），ELF在最后一步额外引入了一次词元级别的扰动，构造出带噪声的输入。随后，同一个网络输出干净嵌入，再通过一个可学习的反嵌入矩阵投影为词元逻辑值。训练目标则是标准的词元级交叉熵损失。整个网络共享参数，并通过一个二值的模式标记来区分“去噪模式”与“解码模式”。

推理时，模型从噪声开始连续去噪，直至最后一步切换模式并输出最终词元。此外，ELF还将图像生成中常用的“无分类器引导”技术适配了过来，利用自条件信号来提升生成质量。

实验对比

实验部分，ELF有力地回答了一个悬而未决的问题：连续扩散语言模型，究竟竞争力如何？结果表明，它不仅在质量上能打，更在速度与训练成本上实现了多重优势。

如前所述，在OpenWebText的文本生成任务中，ELF仅用32步采样，在不进行蒸馏的情况下，就将生成困惑度降至24。而许多主流离散扩散模型往往需要运行1024步才能达到相近水平。

更值得注意的是，ELF达成这一结果所使用的训练词元量仅为450亿，而同类模型通常需要5000亿以上。这意味着，它在采样效率和训练数据需求上都减少了一个数量级，效果却更优。

在条件生成任务上，ELF同样表现稳健。无论是在WMT14机器翻译还是XSum文本摘要任务中，它都稳定超越了现有的扩散语言模型，甚至优于部分自回归基线模型。

论文总结颇为克制：ELF在生成质量、采样效率和训练成本之间，实现了出色的权衡。用更直白的话说就是：连续派路线并非天生劣势，只是此前未能将“连续”的理念执行得如此彻底。

作者介绍

这篇论文有两位共同第一作者，贡献顺序由抛硬币决定。

胡珂雅，MIT EECS一年级博士生，是何恺明在MIT指导的首批博士生之一，由何恺明与Jacob Andreas联合指导。她本科毕业于上海交通大学ACM班，研究兴趣聚焦于语言与视觉的交叉领域，致力于构建数据效率更高、泛化能力更强的智能体。在何恺明MIT的主页上，她位列研究生名单首位。

另一位第一作者Linlu Qiu，同为MIT博士生，师从Yoon Kim教授。她本科毕业于香港大学，硕士毕业于佐治亚理工学院，曾在谷歌担任AI研究员。值得一提的是，这并非她首次与何恺明团队合作，不久前他们共同完成的论文《ARC Is a Vision Problem!》已被CVPR 2026接收。

作者Hanhong Zhao（赵瀚宏）为MIT本科生，高中就读于中国人民大学附属中学，曾获国际物理奥林匹克竞赛金牌。

作者陆伊炀，现为清华大学姚班大二学生，目前在MIT CSAIL实验室实习，导师为何恺明，研究方向为计算机视觉与深度生成模型。高中时期他是物理竞赛生，曾获全国中学生物理竞赛金牌，此前也已以一作身份与何恺明合作发表论文。

核心作者黎天鸿，是何恺明课题组的博士后。他本科毕业于清华姚班，博士毕业于MIT，半年前那篇重要的《Back to Basics: Let Denoising Generative Models Denoise》论文的第一作者正是他。

论文的其他作者还包括MIT EECS的两位教授Yoon Kim、Jacob Andreas，以及何恺明本人。

参考链接：[1]https://arxiv.org/pdf/2605.10938

来源:https://36kr.com/p/3807012110441987

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：2026款传祺M6 MAX上市时间确定外观内饰与动力配置全面升级下一篇：汽车空调异味出风不均怎么办三包期内免费维修或退换指南