MIT新算法挑战传统强化学习：后训练时代还继续有效吗？

首页

热心网友

转载

2026-03-16

机器之心编辑部

在当前的 LLM 开发中，后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为，模型必须通过强化学习（如 PPO、GRPO 或 RLHF）和进化策略（ES）等算法，在反复的迭代和梯度优化过程中调整权重，才能在特定任务上达到理想的性能。

然而，MIT CSAIL 的研究人员 Yulu Gan 和 Phillip Isola 在他们最新发布的论文中对这一传统认知发起了挑战。他们提出了一种名为RandOpt的新方法，通过简单的随机扰动和集成来突破传统后训练的限制。

论文标题：Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights论文地址：https://arxiv.org/pdf/2603.12228

这一发现对大模型参数空间的理解具有颠覆性意义。早在 2001 年，Schmidhuber 等人提出「随机猜测」不能算作一种有效的学习算法，认为「优秀的解决方案在权重空间中的分布必须极其稀疏」。然而，Gan 和 Isola 的研究揭示了一个反直觉的现象：在完成预训练后，LLM 模型的权重空间实际上形成了一个密集的「神经丛林」（Neural Thickets），这一状态促使简单的随机采样就能发现有效的解决方案。

论文指出，预训练模型不仅仅是后训练的「起点」，其权重空间内已潜藏着大量任务专家。随着模型规模的增大，这些专家在权重空间中的分布密度急剧增加，足以让随机扰动和集成方法有效捕捉优越的解决方案。

基于这一理论，RandOpt 算法的操作方式非常简单：只需向预训练模型添加单步的高斯噪声（无需任何迭代、学习率或梯度计算），并对多个扰动后的模型副本进行集成。实验结果表明，仅凭这一极简的操作，模型就能够在数学推理、代码生成等复杂任务中达到，甚至超越 PPO 或 GRPO 等传统后训练方法的性能。

通过这一创新方法，RandOpt 为后训练的简化提供了新的可能，展示了预训练模型本身已隐含了丰富的任务专家，后训练过程更多是选择和集成这些专家，而非从零开始训练新能力。

这篇论文一经发布便在 AI 社区引发了轰动，不仅迅速登上 alphaXiv 榜单第二，其作者在 X 上的宣传帖子也获得了近 50 万的浏览量和极高的互动，谢赛宁也转发了该工作。

许多从业者和研究人员惊呼：「强化学习在后训练就死了？」「强化学习泡沫破裂？」。

尽管有人对其在细粒度对齐任务上的泛化能力持保留态度，但这种极简算法背后所揭示的参数空间现象，无疑迫使我们重新思考预训练与后训练的本质关系。

预训练权重的「丛林效应」

论文指出，模型规模决定了这些专家在参数空间中的分布形态：

小模型（大海捞针机制）：未经过充分训练或规模较小的模型，在其初始权重附近的优秀解决方案密度极低。它们处于「大海捞针」的状态，发现有效解必须依赖梯度下降等结构化的多步搜索算法。大模型（神经丛林机制）：大型且经过充分预训练的模型，其预训练权重周围密集地分布着大量能提升特定任务性能的专家。在这种状态下，仅靠随机采样就足以快速找到有潜力的适应性模型。

小模型（左）的大海捞针机制与大模型（右）的神经丛林机制示意图。大模型周围充满了代码专家、数学专家等特定任务的解决方案集。

为了量化这一现象，研究测量了两个核心指标：

解决方案密度：随机扰动能使基础模型性能提升特定幅度的概率。实验表明，这种密度呈现出明显的缩放定律：模型参数规模越大，其性能越好，周围高质量解决方案的密度就越高。解决方案多样性：这些随机采样出的好模型是「专才」而不是「通才」。一个扰动如果在一个特定任务上大幅提升了性能，往往会降低在其他任务上的性能。论文引入了「光谱不一致性」指标来衡量，发现随着模型规模增加，解决方案的多样性也单调增加，这意味着大模型周围的专家在能力上越来越互补且互不重叠。

为了直观展示神经丛林的存在，研究团队对参数量从 0.5B 到 32B 的 Qwen2.5 预训练模型注入了 1000 个随机权重扰动，并通过随机投影技术将其准确率景观可视化到了二维平面上。

实验清晰地呈现了 Scaling Law：随着模型规模的扩大，景观中代表更高准确率的「红色区域」（即任务改善区域）显著增多并变得更加密集。

简而言之，大模型所处的参数空间不仅是一个宽阔的平原，其周围更是一个布满不同任务局部最优解的「盆地」。

那么，究竟是什么导致了这种奇特的「神经丛林」的涌现？

1D 信号预测实验揭示了这一现象的根本原因。研究者使用多层感知机（MLP）对混合的一维信号（如正弦波、方波等）进行自回归预测的预训练。通过对比不同预训练策略，实验揭示了三个阶段：

无预训练（大海捞针期）：在随机初始化下，微小的权重扰动对模型功能几乎没有影响，好的解决方案距离极远，随机采样完全失效。单一任务预训练（高原期）：如果只在单一信号（如仅线性函数）上预训练，模型在测试该任务时已经达到性能天花板（处于平缓的极小值处），但周围的权重没有展现出任何功能多样性，随机猜测无法带来额外收益。混合多任务预训练（丛林诞生期）：只有当模型在多种不同的信号类型上进行过混合预训练后，参数空间才会孕育出能在不同方向上拟合不同信号的「专家丛林」。

1D 信号预测实验展示了三种机制。只有在「混合信号预训练」下（图 b），权重扰动才会炸开成形态各异的函数预测，形成神经丛林。

这也解释了为什么在海量混合数据上预训练的大语言模型，会天然自带一片生机勃勃的「专家丛林」。

RandOpt 算法：单步、无梯度、极致并行

基于「密度高」且「多样性强」的神经丛林现象，作者探索了一种极其简单且完全并行的后训练算法RandOpt。作者将其定义为：单步、无梯度、无学习率、无迭代、完全并行。

RandOpt 的操作避开了所有序列化的梯度更新，主要分为两个阶段：

训练（随机猜测与检查）：算法从标准高斯分布中采样出 N 个随机种子和对应的噪声尺度，将其直接加到基础模型的权重上，生成 N 个扰动后的模型副本。随后，让这些模型在一个小的训练集（或验证集）上运行，并根据得分选出表现最好的 Top-K 个模型。推理（预测集成）：在面对测试输入时，算法利用筛选出的 K 个模型分别生成预测，最终通过多数投票机制聚合这些预测，得出最终答案。

RandOpt 性能与基础模型规模的关系。图表显示，如果从头开始使用 RandOpt（不进行预训练），性能几乎为零；而对于经过预训练的模型，在参数量达到约 1.5B 时，RandOpt 的性能提升开始迎来爆发。

这种机制的一个关键特性是它完全不需要计算梯度，也不涉及任何序列化的优化步骤，所有的模型生成和评估都可以完全并行处理。

RandOpt 与传统方法的对比

这种看似「简单粗暴」的方法，在实际基准测试中展现出了惊人的战斗力。研究团队在跨越 0.5B 到 8B 参数规模的多个模型（Qwen、Llama、OLMo3）上，对数学推理（Countdown、GSM8K 等）、代码生成（MBPP）、创意写作（ROCStories）以及化学（USPTO）任务进行了全面测试。

在消耗相同训练 FLOPs（浮点运算次数）的前提下，RandOpt（通常设置 K=50）在绝大多数设定中不仅追平，甚至超越了 PPO、GRPO 和 ES 等标准后训练方法。

此外，RandOpt 在训练时间（Wall-clock time）上具有颠覆性的优势。传统基准方法需要运行数百个序列化更新步骤（时间复杂度为 O(T)），而 RandOpt 的训练步骤是 O(1)。论文指出，在一组包含 200 个 GH200 GPU 的集群上使用 RandOpt 训练 OLMo-3-7B-Instruct 模型，设定 N=2000 和 K=50，仅需 3.2 分钟即可完成，并在 Countdown 任务上达到 70% 的准确率。

不仅是语言模型，RandOpt 同样适用于视觉语言模型（VLM）。在冻结视觉编码器、仅扰动语言模型权重的情况下，RandOpt 将 3B 参数的 Qwen2.5-VL-Instruct 模型在 GQA 视觉推理数据集上的准确率提升了 12.4%。

提升究竟来自哪里？代价又是什么？

为了验证模型能力的真实来源，作者在 GSM8K 数据集上对性能提升进行了细致的错误归因分解。

数据表明，对于集成后达到 86.7% 准确率的 RandOpt（K=50），其提升中有19.0% 来源于「格式丛林」（Format Thicket）（即基础模型算对了，但输出格式不符合严苛的评估要求，扰动模型修正了格式）；更重要的是，有12.3% 来源于真实的「推理丛林」（Reasoning Thicket）（即基础模型原本算错，而扰动后的模型真正学会了正确的推理并得出正确答案）。这一结果有力地证明了，神经丛林中确实存在着掌握不同实质性技能的专家，而不仅仅是表面的格式微调。

不仅如此，这种丛林现象在文本到图像生成领域（如 Stable Diffusion XL 模型）中表现为「色彩丛林」（Color Thickets）。某些参数空间的局部区域会优先生成具有特定调色板（如蓝色或黄色主导）或视觉风格的图像，展现出了极高的生成多样性。