Mamba作者以压缩挑战打破Scaling Law，无预训练模型问鼎ARC-AGI榜三

首页

热心网友

转载

2025-12-16

henry 发自凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

压缩即智能，又有新进展！

在最新研究CompressARC中，Mamba作者Albert Gu团队给出了一个不同于大规模预训练的智能配方——

最小描述长度（MDL）

研究显示，仅通过在推理阶段最小化目标谜题的描述长度，一个76K参数，完全没有经过预训练的模型，就能在ARC-AGI-1基准上解决20%的问题。

值得一提的是，CompressARC不仅没使用ARC-AGI的训练集，还是目前唯一一个只在单个样本上运行的深度学习方法。

凭借这一突破，CompressARC获得了ARC Prize 2025的第三名，并且据论文一作Isaac Liao透露，这项研究仅使用了一张GPU就得以完成。

这是怎么做到的？

新的智能recipe：最小描述长度

如上所说，CompressARC一没利用训练集、二不进行预训练，且网络中仅有76K参数，但它仍能泛化并解决20%的评估谜题和34.75%的训练谜题。

这种不靠预训练获取智能的关键在于，CompressARC的最终目标不是像普通神经网络那样学习一个泛化的规则，而是把一个特定的ARC-AGI谜题用一个最短的计算机程序表达出来。

换句话说，CompressARC并不是像监督学习一样，学习一个x到y的映射，而是寻找一种能用最少比特信息来表述给定谜题的方法。

这一思想源自最小描述长度（MDL）理论（以及与其相关的Solomonoff归纳法和Kolmogorov复杂度理论）——一个现象（谜题）的最短描述（程序）往往能揭示其最深层的规律。

在ARC-AGI的情境中，CompressARC旨在将一个特定的ARC-AGI谜题（包括其输入和期望的输出）用一个最短的计算机程序来表达出来。

这个最短的程序意味着它找到了最简洁、最本质的规则，而这些规则恰好就是谜题的解。

与此同时，研究还遵循奥卡姆剃刀原理，即最短的程序被假设具有最强大的泛化能力

因此，CompressARC仅使用谜题本身（两个示例输入/输出对和测试输入），而不加载任何额外的附加数据或训练集。

接下来，我们具体来看。

CompressARC挑战的ARC-AGI-1是一个检验系统能否在少量示例中找到规则的测试。

简单来说，这有点像行测考试里的找规律题，每道题目会给出几对输入-输出作为示例，模型需要找到谜题中的规则，从而生成正确的、对应的网格。

CompressARC 的“压缩”过程，就是找到图里最本质的信息/规则

目前，在该测试中取得最好成绩的仍是基于互联网数据预训练的大语言模型。

比如o3能达到88%的成绩，但o1则只有25%左右。

而在不进行预训练、仅使用ARC-AGI 数据训练的神经网络中，最高成绩为40.3%，CompressARC这次只在测试谜题本身上进行训练。

总的来说，CompressARC解决问题的过程，是一个最小化目标谜题的程序性描述长度（Minimum Description Length, MDL）的过程，这可看作是用神经网络来“写”最短的程序。

MDL 框架与搜索空间的转换

首先，由于计算机程序的组合搜索空间过于庞大，无法穷尽所有可能的程序来找到绝对最短的那一个（计算上不可行）。

因此，论文设计了一个固定的“程序模板”（Template Program / Algorithm 1）。

这个模板包含一套固定的运算流程：从随机噪声z采样，经过一个神经网络，再次采样生成谜题颜色。

这些模板中留下了几个“空位”，用于填入硬编码的数值（即“种子”）以及神经网络的权重。

只要填入了这些种子和权重，这个模板程序就能运行，并“打印”出整个 ARC-AGI 数据集。

由此，寻找最短程序的问题，就转化成了寻找最短的种子和权重的问题。

接下来，研究借鉴了变分自编码器（VAE）的原理，将程序长度的最小化转化为一个可微分的优化问题：

种子长度 1 (KL 散度)：衡量了从标准正态分布中采样随机输入z所需的编码信息成本。通过最小化z分布与标准正态分布的KL散度，实现了对z所携带信息量的惩罚，迫使网络以最短的比特数来编码z。种子长度 2 (交叉熵/重构损失)：衡量了神经网络输出的谜题与真实已知谜题的匹配程度（即负对数似然）。匹配得越好，说明该谜题被成功重构，所需的“额外校正信息”（即用于校正输出结果的种子）就越少。

不过，原始的算法2需要进行复杂的相对熵编码（REC），涉及指数级的计算，速度太慢。

因此，CompressARC通过算法3跳过了这些复杂步骤，直接用VAE中的损失函数（KL 散度和交叉熵）来近似种子的预期长度。