游乐游手机版
首页/AI热点日报/热点详情

阿里Marco-o1基于Qwen 7B的开放域推理类o1模型

类型:热点整理2026-06-29
首先来看阿里在开放域推理领域的最新动作。 此次推出的Marco-o1模型,目标十分明确——不再局限于解答数学、物理、编程等有标准答案的题目,而是将目光投向了更复杂的开放性问题。在这些场景中,答案往往没有唯一解,甚至连量化评估奖励都变得异常困难。而这正是当前大模型推理能力需要突破的关键瓶颈。 Marc

首先来看阿里在开放域推理领域的最新动作。

此次推出的Marco-o1模型,目标十分明确——不再局限于解答数学、物理、编程等有标准答案的题目,而是将目光投向了更复杂的开放性问题。在这些场景中,答案往往没有唯一解,甚至连量化评估奖励都变得异常困难。而这正是当前大模型推理能力需要突破的关键瓶颈。

阿里Marco-o1: 基于Qwen 7B的面向开放域推理的类o1模型

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions.

Marco-o1:面向开放的推理模型,旨在提供开放式解决方案。

摘要

本文介绍了一个名为Marco-o1的大型推理模型,该模型专为解决开放式推理问题而设计。与那些聚焦于数学、物理、编程等具有标准答案的传统大型推理模型不同,Marco-o1更加注重处理那些缺乏明确标准、难以量化奖励的开放性问题。为了实现这一目标,Marco-o1采用了思维链微调、蒙特卡洛树搜索、反思机制,以及针对复杂现实世界问题解决任务进行了优化的创新推理策略。论文的核心议题是探讨Marco-o1模型能否有效推广到更广泛的领域——在这些领域中,评判标准模糊且奖励难以衡量。

主要方法

Marco-o1精心设计了三种训练集来支撑这一目标。

  1. Open-O1 CoT数据集(筛选版):该数据集从OpenAI o1模型所使用的思维链数据中筛选而来,涵盖数学、物理、编程等多个学科的推理问题及其对应的思维链解答。通过该数据集,Marco-o1能够学习o1模型的推理模式与策略,并尝试将其迁移到更广泛的任务之中。
  2. Marco-o1 CoT数据集:Marco-o1团队自主构建的思维链数据集,旨在补充Open-O1 CoT数据集,进一步提升模型的推理能力。该数据集包含更多开放性推理问题,例如需要创造性解决方案或缺乏明确标准的问题。
  3. Marco-o1指令数据集:该指令数据集用于训练模型理解并执行各种指令的能力,涵盖文本生成、问答、翻译等多种指令类型,以增强模型的通用性与实用性。

其中,开放域思维链数据的生成相对最为困难。因为在许多开放场景中,我们很难量化模型回答或步骤的准确性,因此难以直接套用在数学、代码任务中已较为成熟的方法。

论文的核心创新点在于将蒙特卡洛树搜索大语言模型相结合,以此扩展解决方案空间,并生成用于开放域推理任务的思维链数据集。

1. MCTS框架与推理状态

在MCTS框架中,每个节点代表一个推理状态,即问题解决过程中的某一具体阶段。在每个节点上,模型会基于当前推理状态做出选择。

每个节点对应模型推理过程中的一个特定状态,例如一个推理步骤或某个子任务的完成状态。

2. 动作作为LLM的输出

MCTS的每个节点可以通过不同的“动作”迁移到另一个状态。这里的动作由LLM生成,即模型根据当前推理状态生成的潜在步骤。

从每个节点开始,LLM会根据当前推理状态生成多个可能的输出,这些输出即为下一步推理的潜在选择。例如,在推理任务中,LLM可以生成多条不同的推理路径或候选答案。

3. 回合(Rollout)与奖励计算

回合(rollout)阶段,LLM会继续推理,直至达到终态(例如生成完整答案或解决方案)。回合的主要目标是模拟推理过程,并计算每个步骤的“奖励”以评估推理路径的质量。

  • 回合阶段:LLM从当前推理状态继续推理,生成更多令牌,直到达到最终终态。这个过程相当于完成一个完整的推理链。
  • 奖励计算:奖励分数用于评价每个回合中生成的推理路径的质量。具体通过计算每个令牌的置信度分数获得,最终将所有令牌的置信度分数取平均值,作为回合的总体奖励。

4. 置信度分数与奖励分数

为解决推理过程中的不确定性,并有效评估不同路径的优劣,论文引入了置信度分数,用以评价每个生成令牌的可靠性。

  • 置信度分数:对于每个生成的令牌,LLM会计算其对数概率,并与前5个最可能替代令牌的对数概率进行比较,使用softmax函数将其转化为归一化的置信度分数。
  • 奖励分数:所有令牌的置信度分数取平均值后,得出整个回合的奖励分数。更高的奖励分数意味着该推理路径可能更准确。

5. 引导MCTS搜索

通过计算每个回合的奖励分数,MCTS能够有效评估并选择更有前景的推理路径。奖励分数作为反馈信号,指导搜索算法向更可靠、更可能准确的推理链条靠近。

  • 引导MCTS:MCTS利用奖励分数评估当前路径的质量,选择最有可能的推理路径进行进一步扩展。奖励分数帮助MCTS避免在不可靠路径上浪费资源,使搜索集中到高置信度的推理链上。

6. 扩展解决方案空间

结合MCTS与LLM的策略显著扩展了解决方案空间。MCTS通过多次模拟不同的推理路径(回合),让模型能够探索巨大的推理空间,并根据计算出的置信度分数选择最可能的路径。

通过多轮回合与奖励计算,模型能够生成并选出最有可能成功的推理路径,从而在开放域任务中灵活生成多种潜在解决方案,并最终确定最优推理过程。

除上述MCTS常规流程外,Marco-o1还引入了一个反思机制。这部分工作探索了通过调整粒度与引入反思机制,提升MCTS框架下的推理能力。

动作粒度调整
  • 步骤(Step)作为动作:最初使用较大的推理步骤作为MCTS搜索的动作单元,能够高效探索解决方案空间,但可能遗漏细致的推理路径。
  • 迷你步骤(Mini-step)作为动作:将每个动作细分为32或64个令牌,提供更细的粒度,帮助模型探索更精细的推理路径,从而提升解决复杂问题的能力。
反思机制
  • 在每次推理结束后,模型通过添加反思短语“Wait! Maybe I made some mistakes! I need to rethink from scratch.”进行自我反思。
  • 该机制促使模型重新评估推理步骤,尤其对复杂问题的解决效果显著,许多原本错误的答案通过反思得以纠正。反思机制提升了模型的自我修正能力,无需外部干预。

这些策略共同扩展了模型的推理空间,增强了模型在解决复杂问题时的推理能力,特别是在细节推理与自我纠错方面。

示例

下图展示了Marco-o1-CoT(左侧)与Marco-o1-MCTS (step)(右侧)在解决同一个下载时间计算问题时的表现对比。两者的主要区别在于推理粒度的不同,Marco-o1-MCTS (step)通过步骤级别的细化推理探索更广泛的解决方案空间,最终得出正确答案。

问题背景

Carla正在下载一个200GB的文件。通常情况下,她可以以每分钟2GB的速度下载,但下载到40%时,Windows强制安装更新,更新过程需要20分钟。更新完成后,Carla必须重新开始下载文件。我们需要计算她总共需要多少时间。

左侧:Marco-o1-CoT

Marco-o1-CoT方法使用较大粒度的推理步骤来解决问题,但由于推理粒度较粗,它错过了某些重要细节,导致推理结果不准确。

  • 正确的推理步骤:模型正确计算出前80GB的下载时间为40分钟,并计算出剩余的120GB在重启后需要60分钟。
  • 错误的推理:模型遗漏了重启过程的20分钟,认为总时间为60分钟+20分钟=80分钟,却忽略了需要重新下载整个200GB文件的情况。

最终,Marco-o1-CoT得出的结论是总共需要120分钟,这个答案是错误的。

右侧:Marco-o1-MCTS (step)

Marco-o1-MCTS (step)方法将推理过程分解为更细的步骤,使模型能够更全面地探索解决方案空间,避免遗漏重要细节,最终得出正确答案。

  • 正确的推理步骤:模型正确计算出前80GB的下载时间为40分钟后,清楚识别到重启需要额外20分钟,并进一步计算出重启后重新下载200GB需要100分钟。

通过细化推理过程,Marco-o1-MCTS (step)最终得出正确结论:总共需要160分钟。

这个例子很好地说明:粗粒度的推理虽然效率高,但容易在细节上出错;而细粒度的MCTS搜索虽然消耗更多计算资源,却能通过扩展搜索空间,有效避免遗漏关键细节,从而提升推理的准确性。

来源:https://www.53ai.com/news/LargeLanguageModel/2025012158127.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。