谷歌8月论文揭示o1原理，大模型软件无护城河

时间：2026-07-03 15:33

有网友因此发出感慨：就在不久前，OpenAI 将 o1-mini 的推理速度提升了 7 倍，每日可用额度达到 50 条；而 o1-preview 则调整为每周 50 条。计算量可节省 4 倍谷歌 DeepMind 的这篇论文标题直击要害：优化大语言模型在测试时的计算资源，比单纯扩大模型参数量更高效。

有网友因此发出感慨：

就在不久前，OpenAI 将 o1-mini 的推理速度提升了 7 倍，每日可用额度达到 50 条；而 o1-preview 则调整为每周 50 条。

计算量可节省 4 倍

谷歌 DeepMind 的这篇论文标题直击要害：优化大语言模型在测试时的计算资源，比单纯扩大模型参数量更高效。

这一思路颇具启发性。人类在应对复杂问题时，往往会投入更多思考时间以做出更优决策，那么大语言模型是否也能采用类似策略？换言之，面对一项复杂任务，能否让 LLM 在测试阶段更充分地利用额外计算资源，从而提升答案的准确性？

此前已有研究证实这一方向可行，但实际效果较为有限。因此，本次研究旨在探明：仅动用少量额外推理计算，模型性能究竟能提升到什么程度？

研究团队设计了一系列实验，使用 PaLM2-S* 在 MATH 数据集上进行了完整测试。重点分析了两种方法：一是迭代式自我修正——让模型对同一问题多次尝试作答，并在每次尝试后自动修正，逐步逼近正确答案；二是搜索方法——模型先生成多个候选答案，再从中筛选出最优解。

从结果来看，采用自我修正方法时，随着测试阶段计算量的增加，标准最佳 N 策略（Best-of-N）与计算最优扩展策略之间的差距逐步扩大。而在搜索方法下，计算最优扩展策略在初期优势显著，并且在一定条件下，能够以仅相当于最佳 N 策略四分之一的计算量，达到相同的效果。

接下来，团队还进行了 FLOPs 匹配评估：将采用计算最优策略的 PaLM 2-S* 与一个规模大 14 倍的预训练模型（不施加额外推理）进行对比。结果发现，使用自我修正方法时，当推理 token 数量远小于预训练 token 数量，测试时计算策略的效果优于单纯预训练。但随着这一比例增加或问题难度上升，预训练的优势又重新显现。

简而言之，问题难度才是决定不同测试时计算扩展方法能否奏效的关键因素。

研究进一步比较了多种 PRM 搜索方法，结果显示，前向搜索（图中最右侧）所需的计算资源最大。

在计算资源相对匮乏的情况下，采用计算最优策略最多可节省 4 倍的资源投入。

与 OpenAI 的 o1 模型进行对比，这篇研究得出的结论几乎完全吻合。o1 模型学会了不断优化自身的思考链条，尝试不同的策略，并识别自己的错误。而且，随着强化学习程度（训练时计算）和思考时间（测试时计算）的持续增加，o1 的性能也稳步提升。唯一的区别在于，OpenAI 抢先发布了模型，而谷歌这边使用的是 PaLM2，在 Gemini2 上尚未推出更新版本。