清华大学与UCSD联合研发OREO训练法让AI实现类人推理
这项由清华大学与加州大学圣地亚哥分校(UCSD)等顶尖高校合作的研究,于2024年12月发表在arXiv预印本平台,论文编号为arXiv:2412.16145v2。它为AI训练领域带来了一个值得关注的新思路。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

观察ChatGPT解数学题时,一个自然的疑问是:它究竟是如何一步步思考的?理想的推理过程,应当像一位学霸那样,先理解题意,再规划步骤,最后得出答案。然而,当前主流的AI训练方式,却更像一个只给最终分数、不做过程点评的老师——它告诉模型“这个答案对,那个答案错”,却无法指出具体哪一步的推理出了问题。
研究团队精准地指出了这个痛点:目前最流行的直接偏好优化(DPO)方法,在处理需要多步推理的复杂任务时显得力不从心。它依赖于成对的偏好数据,且只能对整个答案进行“好”或“坏”的粗糙评判。这就像只根据考试总分来指导学生,效率低下,尤其在步骤繁多、环环相扣的任务中。为此,团队提出了一套名为“离线推理优化”(OREO)的新训练框架。其核心,是为AI配备了一位“双料导师”:不仅评判最终结果,更能对推理链条中的每一步进行精准评估与指导。
传统方法的困境:过程评估的缺失
要理解OREO的创新,首先得看清现有方法的局限。DPO这类方法的工作原理,本质上是一种基于结果的二元反馈。它需要大量人工标注的“配对数据”(即明确哪个答案更好),并将整个输出序列视为一个不可分割的整体进行优化。
对于生成一段流畅的文本或回答一个简单问题,这种方式或许够用。但面对一道需要十几步推导的数学难题,或是一个需要分解为多个动作的机器人控制任务时,问题就暴露了。AI无法知晓错误究竟源于第三步的公式误用,还是最后一步的计算疏忽。更棘手的是,为复杂推理任务获取高质量、成对的偏好数据成本极高,且DPO平等对待所有词汇和步骤,无法区分关键决策点与常规操作,导致学习信号模糊,效率受限。
OREO的核心思想:双脑协同,步骤级优化
OREO的突破在于引入了“双脑协同”的架构。它不再只训练一个生成答案的模型,而是同步训练两个紧密配合的模块:
策略模型:负责生成具体的推理步骤,如同解题的“学生”。
价值函数:负责评估每一步推理的“好坏”与潜在价值,如同旁观的“点评导师”。
这两个模块并非孤立工作。策略模型在生成每一步时,会参考价值函数的评估来调整方向;价值函数则通过观察策略模型的生成轨迹来优化自己的评判标准。这种协同优化的理论基础是“软贝尔曼方程”,它引导系统不仅追求当前步骤的即时收益,更要考虑其对达成最终目标的长期价值,类似于高手下棋时的全局谋划。
技术实现:精准的步骤级信用分配
在具体实现上,OREO的核心是“步骤级信用分配”。传统方法如同仅公布比赛胜负,而OREO则致力于分析每一次传球、每一次射门的贡献。它会剖析推理链中的每一步:这一步是否澄清了问题?是否为后续关键推导铺平了道路?
价值函数的训练目标,是学会预测“从当前状态出发,最终成功解决问题的期望有多大”。研究团队设计了三种变体以适应不同场景:精细到每个词语的“词语级OREO”、以完整逻辑步骤为单位的“步骤级OREO”,以及用于对比的、模仿DPO整体评判模式的“响应级OREO”。为确保训练稳定,还采用了“停止梯度”等技术,防止两个模块在协同更新时相互干扰。
实验验证:数学与智能体任务上的显著提升
为了验证效果,团队在数学推理和智能体控制两大经典任务上进行了测试。
在数学领域,使用GSM8K(小学数学)和MATH(竞赛数学)数据集。结果令人印象深刻:一个仅1.5亿参数的“小模型”,经OREO训练后,在GSM8K上达到77.3%的正确率,在更具挑战的MATH上达到52.5%的正确率,相比传统监督学习方法提升显著。即便在一个已经表现很好的70亿参数“大模型”上,OREO仍能带来3.6%至5.1%的额外性能提升,证明了其普适性。
在ALFWorld模拟家庭环境的智能体控制任务中,OREO同样表现出色。尤其是在训练时未见过的新环境里,智能体的任务成功率提升了17.7%,这表明该方法增强了AI的泛化能力,而非仅仅记忆特定场景。
迭代训练与价值函数的双重红利
OREO支持迭代式训练。模型在首轮训练后,可以生成新的数据用于下一轮训练,如此循环,性能得以持续提升,且未出现传统方法常见的性能饱和现象。这是因为OREO能有效从失败经验中学习,明确哪些步骤导致了错误。
更巧妙的是,训练好的价值函数本身就是一个强大的推理辅助工具。在模型解题时,可以运用价值函数进行“树搜索”:在关键步骤同时探索多种可能路径,并选择价值评分最高的方向前进。这一技巧在MATH数据集上带来了17.9%的相对性能提升,相当于获得了一个“免费”的推理增强器。
理论贡献与应用前景
从理论上看,OREO的重要贡献在于将强化学习中的经典框架(如路径一致性学习)与语言模型训练进行了巧妙桥接。它从原理上解释了DPO的局限性——DPO可被视为OREO框架下一种放松了关键约束的特殊情况,这导致了其在多步推理任务上的信息损失。
展望未来,OREO所代表的“过程优化”范式潜力广阔。无论是需要多步规划的程序代码生成、涉及复杂逻辑链的科学推理,还是需理解上下文的多轮对话系统,凡是依赖分步决策的任务,都可能从这种细粒度的步骤评估与优化中受益。其迭代学习的能力,也为AI模型的持续进化提供了新路径。
总而言之,OREO的成功在于它正视并尝试解决了复杂推理的核心难题:对步骤差异化和步骤间依赖关系的建模。它标志着AI训练从只关注“最终答案是否正确”,向同时关注“获得答案的过程是否合理”迈出了关键一步。虽然这项研究聚焦于数学与智能体任务,但其核心思想——培养AI的“步骤意识”与“自我评估”能力——无疑为构建更可靠、更智能的AI系统提供了富有启发性的方向。
Q&A
Q1:OREO训练法和传统的DPO方法有什么区别?
A:核心区别在于评估粒度。OREO同时训练策略模型和价值函数,能对推理过程中的每一步进行好坏评估与优化;而DPO只能对整个最终答案进行简单的优劣比较,无法提供步骤级指导。此外,OREO不需要配对的偏好数据,能更有效地利用失败案例。
Q2:OREO方法在哪些任务上表现最好?
A:在需要多步推理的复杂任务上表现尤为突出,例如数学解题和智能体控制。实验显示,在竞赛级数学数据集MATH上,小模型就能达到优异水平;在陌生环境中的智能体控制任务上,成功率也有显著提升。
Q3:价值函数除了训练还有什么用处?
A:训练好的价值函数可直接用于增强推理时的决策。通过“树搜索”策略,在解题的每个关键点评估多种可能路径并选择最优,这能额外提升解题准确率,在实验中带来了可观的性能增益。
相关攻略
这项由清华大学计算机科学与技术系联合浙江大学、苏黎世联邦理工学院和北京邮电大学共同完成的研究,发表于2026年1月30日的预印本论文(arXiv:2601 20732v2)。研究团队瞄准了一个我们习以为常、却很少深究的痛点:当手机系统更新、电脑换了新版本,或者从手机切换到电脑时,人类能很快适应界面变
想象一下,你正在体验一款开放世界游戏。当你站在高塔之巅,远方的山脉清晰可见。随后你转身离开,去探索地图的其他角落。许久之后,当你再次回到这座塔顶,那座山依然以完全相同的姿态矗立在原地。这种空间持久且一致的认知,是人类理解世界的基础。 然而,若让当前的主流AI来动态生成这样的游戏场景,结果会大相径庭。
这项由清华大学、中佛罗里达大学、复旦大学等多所顶尖学府联合开展的研究,于2026年2月以预印本形式发布,论文编号为arXiv:2602 06034v1。对于希望深入探究技术细节的读者,可以通过该编号查阅完整论文。 你是否也有过这样的经历?在网上搜索“白色沙发配斑点抱枕”,传统引擎往往只能生硬地匹配文
这项由清华大学LeapLab、NLPLab与阿里巴巴集团联合开展的研究,发表于2026年1月22日,论文编号为arXiv:2601 15165v1。 提起人工智能的语言模型,一个普遍的直觉是:越灵活越好。就像一位解题高手,若能不拘泥于固定思路,从多角度切入,理应表现更佳。然而,清华大学的最新研究揭示
想象一下,您开车从家出发前往超市。在这个过程中,您的大脑不仅在处理眼前的实时路况,更在根据您踩下油门、转动方向盘等一系列操作,持续预测下一刻周围环境将如何变化。这种“我执行了某个动作,世界将如何响应”的预测能力,是人类在物理空间中导航乃至进行一切交互的核心基础。 而让机器智能体也掌握这种能力,正是“
热门专题
热门推荐
当RPA机器人面临复杂决策场景时,企业通常可以采取以下几种经过验证的有效策略来应对,确保自动化流程的顺畅与准确。 借助人工智能技术 一种广泛应用的解决方案是将RPA与人工智能技术深度融合,特别是机器学习与自然语言处理。通过集成AI的预测分析与模式识别能力,RPA能够处理非结构化数据并应对模糊的业务情
当智能制造与人工智能技术深度融合,这不仅是两种前沿科技的简单叠加,更是一场旨在重塑全球制造业竞争格局的系统性变革。其核心目标在于,通过深度嵌入人工智能等前沿技术,全面提升制造业的智能化水平、生产效率与国际竞争力。那么,如何有效推进这场深度融合?以下六大关键策略构成了清晰的行动路线图。 1 加强关键
对于已经部署了RPA的企业而言,项目上线远不是终点。要让自动化投资持续产生价值,对机器人性能进行持续优化是关键。这就像保养一台精密的机器,定期维护和调校,才能确保其长期高效、稳定地运行。 那么,具体可以从哪些方面着手呢?以下是一些经过验证的优化方向。 一、并行处理与任务分解 首先,看看任务执行本身。
面对海量数据源的高效抓取需求,分布式数据采集架构已成为业界公认的核心解决方案。该架构通过精巧的设计,协调多个采集节点并行工作,并将数据汇聚至中央处理单元,最终实现数据的集中分析与深度洞察。这套系统看似复杂,但其核心原理可拆解为几个关键组件的协同运作。 一、系统核心组成 一套典型的分布式数据采集系统,
Gate io平台活动页面多样,新手易混淆注册奖励、邀请与正常开户页。本文梳理三者核心区别:注册奖励页通常含专属链接与限时福利;邀请页强调社交分享与返利机制;正常开户页则提供基础功能与安全验证。清晰辨识有助于用户高效参与活动,避免错过权益或操作失误,提升在Web3领域的入门体验。





