东北大学发布从零学写字的AI扩散语言模型

时间：2026-06-23 15:08

日本东北大学研究团队开发出70亿参数的均匀扩散语言模型Sumi，在1 5万亿词语上从头训练。该模型允许任意位置多次修改，通用知识与编程测试表现优异，但常识类成绩因训练数据筛选策略而较弱。自我纠错能力理论上存在，实践中未显著提升效果。模型权重、代码与数据配方完全公开。

这项由日本东北大学自然语言处理实验室主导完成的研究，于2026年6月17日以预印本形式发布，论文编号为arXiv:2606.19005。

你有没有好奇过，一个AI在生成文字时，到底是怎么“想”出那些词的？我们熟悉的ChatGPT那类AI，写文章的方式就像一个人从左到右一个字一个字地打字——每敲下一个字，就再决定下一个字是什么，绝对不会回头修改已经敲出去的字。这听起来很自然，但其实有一个根本性的局限：它永远无法“后悔”，无法在写到第五十个字的时候忽然意识到第三个字用错了，然后回去改掉它。

东北大学的研究团队造出了一种完全不同的AI写作方式，他们把这个模型叫做Sumi（日文“墨”的意思，正好暗合了文字从噪音中慢慢浮现的意象）。Sumi不是从左到右一字一字地写，而是更像一个画家在画布上反复涂改——先在整张画布上铺满随机的噪点，然后一遍遍地把那些“说不准的位置”擦掉重写，直到整幅画变得清晰完整。更关键的是，Sumi的任何一个位置，在任何时刻都可以被重新修改，没有哪个字是“已经定了不能动”的。这种方式在学术上叫做“均匀扩散语言模型”（Uniform Diffusion Language Model，简称UDLM）。

Sumi的规模相当可观：70亿个参数（这大约是目前主流大模型的常见体量），在1.5万亿个词语的数据上从头训练出来。训练从零开始，没有借助任何已有的大模型打基础。这在“均匀扩散”这个技术路线上，是第一次有人做到如此大的规模，也是第一次有人完整公开了训练所用的数据配方、模型权重和所有训练细节。研究团队希望借此让学术界能够真正研究和复现这一类模型，而不只是看着论文里的数字干着急。

一、AI写字的两种流派：流水线工人 vs. 反复打磨的工匠

要真正理解Sumi的独特之处，需要先聊清楚AI生成文字这件事到底有哪些不同的思路。

目前最主流的AI写作方式，就是我们熟悉的ChatGPT、LLaMA这一类，学术上叫“自回归模型”（Autoregressive Model）。这类AI就像一条装配流水线上的工人——流水线只朝一个方向走，每一站只做一件事，做完就传给下一站，已经装好的零件不能拆下来重来。这种方式效率很高，而且在大量数据下训练出来的效果非常好，是目前工业界的主流。

另一种思路叫做“扩散模型”（Diffusion Model），最初是在图像生成领域大放异彩的——比如能画出逼真照片的AI。扩散模型的核心逻辑是“从乱到整”：先把一张画布搞得乱七八糟（充满噪点），然后一步一步地把噪点去掉，最终得到一张清晰的图。把这个思路移植到文字生成上，就成了“扩散语言模型”。

扩散语言模型本身又分成两个流派。一个流派叫“掩码扩散”（Masked Diffusion），代表是LLaDA这类模型——它的做法是先把文字里的某些位置换成[MASK]（空格），然后逐步把这些空格填上。一旦某个空格被填上了某个词，这个词就固定了，不能再改。另一个流派就是本文的主角——“均匀扩散”（Uniform Diffusion）。均匀扩散不仅仅填补空格，而是允许任何一个位置的任何词在任何时刻被替换成别的词，没有任何位置是永久锁定的。这就像素描和油画的区别——铅笔画一旦涂成黑色就很难改，油画则可以在任何位置反复叠加和修改颜色。

这种“任意时刻都能修改”的特性，理论上赋予了均匀扩散模型一种非常吸引人的能力：自我纠错。模型可以先写一个草稿，然后在后续的步骤里意识到某个词用得不好，把它换掉。然而，这种理论上的优势在实际训练中究竟能不能实现，一直是个谜——因为在此之前，从未有人真正用大规模数据把这类模型训练到可以认真讨论其能力的程度。

二、Sumi是怎么被“培养”出来的：一张精心设计的学习食谱

训练一个大型语言模型，最重要的两样东西是“学什么”和“怎么学”。研究团队在这两方面都做了大量细致的工作。

关于“学什么”，也就是训练数据，Sumi的整个学习过程分成两个阶段，各有侧重。第一阶段叫预训练，用了约1.3万亿个词。这些数据的主体（接近70%）来自互联网网页文本，但有一个关键的筛选步骤：所有网页文本都经过了一个“教育价值评分”系统打分，只保留得分高的内容。打个比方，如果把互联网比作一个巨大的图书馆，普通的爬虫会把所有书都扫进去，包括各种闲聊帖子和垃圾广告；而Sumi的做法是让一个“图书管理员”（一个轻量级的AI分类器，它的判断标准来自Qwen3-32B这个更强大AI的打分经验）提前浏览每一本书，只留下那些对学习有价值的内容。剩余部分包括学术论文（约6.5%）、数学内容（约3.5%）和代码（约13%）。

第二阶段叫中期训练，又额外学了约2500亿个词。这一阶段的数据配方更加“精英化”：代码占了约32.5%，数学内容占约29.7%，推理类内容（如逻辑题、解题过程）占约16.8%，通用文本只占21%。换句话说，这一阶段相当于让已经有了基础知识的学生集中强化数学、编程和逻辑推理，就像高中生在大学入学考试前集中刷题。中期训练还特意把模型能处理的文本长度从约1184个词拓展到了约4864个词，让模型能处理更长的文章和代码段。

关于“怎么学”，Sumi在底层数学框架上采用了一种叫做GIDD（广义插值离散扩散）的训练目标，并结合了一种用“信噪比”来重新表述学习目标的改进方法。这些技术细节的核心含义是：模型需要学会在各种程度的“混乱”状态下（从非常嘈杂到相对清晰），都能准确预测出正确的词应该是什么。整个训练在288块英伟达H100显卡上进行，消耗了约43308个GPU小时。

Sumi的具体架构采用了业界常用的LLaMA风格设计：36层Transformer结构，每层有4096维的隐藏表示，使用分组查询注意力机制（32个注意力头，8个KV组），还用了SwiGLU激活函数和RMSNorm归一化。为了让训练更稳定，研究团队还引入了一种叫“偏移一格的softmax”的小技巧来避免注意力机制的退化问题。模型使用了OLMo 3的分词器，词汇量约10万个词条。

三、Sumi的考试成绩：在哪些科目上表现亮眼，在哪里被比下去了

研究团队用13个标准测试题库对Sumi进行了全面测试，涵盖通用知识、推理与数学、编程和常识四大类别，并与三个同等规模（70亿参数左右）、类似训练数据量（1万亿至2.5万亿词）的自回归模型——Falcon-7B、Llama 2-7B和OLMo-7B——在完全相同的测试条件下进行了公平比较。

在通用知识方面，Sumi的表现相当突出。在MMLU（考察各学科综合知识的大型测试）上，Sumi得了51.1分，而Falcon-7B只有27.2分，Llama 2-7B是46.0分，OLMo-7B是28.0分。在TruthfulQA（测试AI会不会说假话的题库）上，Sumi以46.6分领先于其他三个同类模型。这与Sumi训练数据偏重高教育价值内容的策略高度吻合——大量筛选过的教育性文本确实帮助Sumi积累了更扎实的知识。

在编程能力方面，Sumi同样是四个模型里最强的。HumanEval（让AI写Python代码然后用测试用例验证）上，Sumi得了22.6分，而Falcon-7B得了0分，Llama 2-7B得了12.8分，OLMo-7B得了13.4分。这同样与训练数据里大量代码内容的比例相符。

在推理和数学方面，Sumi的成绩比较中规中矩。GSM8K（小学数学应用题）上，Sumi得了32.8分，比Llama 2-7B的13.5分和Falcon-7B的5.3分高不少，但与同规模的掩码扩散模型LLaDA-8B的70.3分相比差距明显。BBH（挑战性逻辑推理题集）上，Sumi得31.8分，略高于Falcon-7B的27.1分，但低于Llama 2-7B的39.6分。

最大的短板出现在常识类测试上。PIQA（考察物理常识）上，Sumi得66.4分，而Falcon-7B高达80.5分，Llama 2-7B是78.7分，OLMo-7B是79.8分。HellaSwag（预测故事下一句）和WinoGrande（判断代词指代）上也出现了类似的差距，Sumi都是四个模型里得分最低的。

研究团队认为，常识类的短板很可能与训练数据的筛选策略有关。那些充满日常对话、生活常识的网页文本，恰恰在“教育价值”筛选中得分偏低，因此被大量剔除了。训练数据越“精英化”，模型学到的日常常识就越少。就像一个从小在图书馆里长大、只读教科书的孩子，数理化可能非常出色，但问起“扫地要先倒垃圾还是先拖地”这类生活问题，可能就没有那个整天在社区里跑来跑去的孩子答得自然。不过研究团队也坦承，这个解释无法完全说明差距的大小，背后可能还有其他原因有待研究。

值得一提的是，研究团队在与LLaDA-8B和Llama 3-8B的对比中提醒读者，这两个参数量稍大、训练数据也更多（分别是2.3万亿和15万亿词）的模型，在多个测试上都明显更强，但它们是在不同测试条件下取得的成绩，属于参考数字而非直接竞争。

四、扩散模型生成文字时的四个有趣观察

除了常规的测试成绩，研究团队还做了一系列实验，专门观察Sumi在实际生成文字时的行为，每个任务抽取30道题来探索。这些观察都是方向性的线索，而非最终定论，研究团队也明确说明这些只是初步探索，旨在给未来研究提供方向。

第一个观察关于“画布大小”对写作质量的影响。均匀扩散模型生成文字时需要事先确定一个“画布”——也就是给这次生成分配多少格子来填写词语。如果画布太小，词不够写；如果太大，多余的格子就用随机词填充。研究团队发现，Sumi只有在画布大小处于它训练时见过的范围（大约1024到4096个词）内，生成的文字才是通顺流畅的；一旦画布比这个范围小很多，模型就开始生成语无伦次的内容，在数学题（GSM8K）上这种崩溃来得尤其早；画布太大时其他任务还算稳定，但数学题同样会崩溃。研究团队最终统一使用2048这个值，这个长度处于训练范围内，对所有测试任务都能产生流畅的输出。用一个比喻来说，这就像一个习惯在A4纸上写字的人，突然给他一张名片大小的纸，或者给他一张海报大小的纸，他都会觉得怎么写都别扭。

第二个观察关于“信心采样”如何给本来没有顺序的模型带来隐性顺序。均匀扩散模型在设计上是没有固定写作顺序的——它可以先填第50个位置，再填第3个位置，完全自由。但研究团队采用了一种叫做“信心采样”（confidence sampling）的策略：每一步，优先把模型“最有把握”的那些位置的词确定下来，把“最没把握”的留到后面。这种策略显著提升了Sumi在生成任务上的成绩。更有趣的是，研究团队发现在信心采样下，不同任务里词语被确定的顺序呈现出了任务特定的规律——比如某类任务里总是先确定开头，某类任务里总是先确定关键词。而如果换用“随机采样”（每一步随机选一些位置确定），就看不到这种规律。这说明信心采样让一个本来没有顺序偏好的模型，自发地“学会”了适合不同任务的写作顺序，就像一个本来随心所欲的画家，被要求“先画最有把握的部分”之后，反而自然地形成了一套有条理的绘画流程。

第三个观察关于“一步确定几个词”对质量的影响。每一轮去噪时，可以选择只确定1个词，也可以一次确定多个词来加快速度。研究团队发现，对于编程任务（HumanEval、MBPP），每步确定2到4个词，成绩基本不受影响；但对于数学应用题（GSM8K），一旦每步超过1个词，成绩就开始下滑。这说明编程任务的词语之间依赖关系相对松散，可以并行处理；而数学解题过程需要严格的步骤顺序，强行并行会破坏逻辑链。这对提高推理速度有实际意义——至少在编程类任务上，可以用少量精度损失换来明显的速度提升。

第四个观察关于“给模型更多时间修改，它真的会改得更好吗”。这是最直接地检验均匀扩散“自我纠错”理论优势的实验。研究团队让模型在完成初稿后，额外再运行1倍、3倍、7倍的修改时间，观察最终答案有没有变化。结果相当耐人寻味：修改操作确实发生了，比例从58%到100%不等（意味着模型确实在改动已确定的词）；但净效果几乎为零——最终与初稿不同的词不超过1%，答案几乎完全没有翻转（30道题里最多只有1题答案改变了），准确率也没有任何提升。仔细观察改动轨迹发现，大多数改动都是“把A改成B，然后又把B改回A”的来回摆动，而不是真正向更好的答案靠拢。这说明在当前的设置下，Sumi虽然具备修改的能力，却不具备判断“什么时候需要修改、改成什么才更好”的智慧。这一发现既令人有些失望（理论上的优势没有实现），也让人对未来有所期待——或许有针对性地设计“错误检测与定向修改”机制，才能真正释放这种潜力。

五、完全开放：为什么这件事本身很重要

Sumi这个项目有一个贯穿始终的重要承诺：完全开放。研究团队发布了模型权重（可以直接下载使用的模型文件）、训练过程中的多个中间检查点（就像保存了不同阶段的草稿，可以研究模型是如何一步步变化的）、完整的训练代码，以及详细的数据配方（用了哪些数据集、各占多大比例、如何筛选）。所有训练数据均来自公开可获取的语料库，研究团队没有重新分发数据，而是详细记录了获取和筛选方法，使得任何人理论上都可以复现一个功能相当的训练数据集。

这种完全开放在当前AI研究环境中并不常见。在自回归模型领域，OLMo是另一个做到类似开放程度的例子；在扩散语言模型领域，Sumi目前是这一技术路线上唯一同时做到大参数规模、大数据规模和完全开放的模型。正如研究团队在论文里说的，自回归模型和掩码扩散模型已经有了可以研究和借鉴的标杆，而均匀扩散模型领域此前没有。Sumi的出现，是要填补这个空白。

研究团队还坦诚地指出了Sumi的局限性和风险：这是一个未经指令微调和安全对齐的基础预训练模型，不适合直接部署到面向用户的产品中；它可能在不当提示下生成有害或虚假内容；它对事实的准确性没有任何保证机制。研究团队明确表示，Sumi的发布目的是支持研究，而非直接商用，并鼓励使用者在具体应用场景中自行评估相关风险。

说到底，Sumi这项工作的价值不在于它在某一项测试上打败了谁，而在于它为一个此前缺乏参照物的技术路线提供了一个扎实的起点。均匀扩散语言模型究竟能走多远，在大规模训练下有哪些规律，自我纠错的潜力如何才能真正释放——这些问题在Sumi出现之前都难以认真讨论，因为缺乏合适的实验对象。现在这个对象有了，而且完全公开，任何人都可以在上面做实验。接下来研究团队还计划推出经过指令微调的Sumi版本，让它能更好地回应具体问题。至于那个“反复修改却没有变聪明”的现象，是不是意味着均匀扩散的自我纠错需要全新的训练方式来激活，还是说这种能力本质上需要在训练阶段就明确教会模型“如何识别并修正错误”——这些问题留给了整个研究社区去继续探索。

对这项研究感兴趣的读者，可以通过arXiv编号2606.19005查阅完整论文，或访问东北大学NLP实验室的项目主页和HuggingFace上的模型发布页面获取模型文件和代码。

Q&A

Q1：均匀扩散语言模型和普通的ChatGPT那类AI有什么本质区别？

A：普通ChatGPT类AI（自回归模型）写文字的方式是从左到右一个词一个词地生成，每个词一旦输出就不能修改。均匀扩散语言模型则像在画布上反复涂改的画家，先用随机词填满所有位置，然后一遍遍地把不满意的地方换掉，任何位置在任何时刻都可以被修改，理论上支持自我纠错。

Q2：Sumi在测试中为什么在常识题上表现这么差？

A：Sumi的训练数据经过了严格的“教育价值”筛选，大量充满日常生活常识的普通网页文本因为教育价值得分低而被剔除。这导致Sumi积累了很多学科知识，却缺乏日常生活的常识积累，就像一个只读教科书的学生，知识扎实但生活经验不足。

Q3：Sumi给了额外修改时间却没有变得更准确，这是为什么？

A：研究团队发现，额外的修改时间里，模型确实在不停改动词语，但大多数改动都是把一个词改成另一个词再改回来，属于来回摆动而非定向优化。这说明模型虽然有能力改，但并不知道“改成什么才算更好”，缺乏识别和定向修正错误的机制。

来源：https://www.163.com/dy/article/L02DUNN30511DTVV.html

语言模型

上一篇铂爵旅拍再成老赖，被执行2.19亿元门店关停退款难 下一篇璇相科技推出百万级光镊芯片携手中器无量完成中性原子平台实测

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。