企业AI智能体强化:OpenAI最新微调实践详解
在2025年举行的QCon+AI NYC大会上,OpenAI的研究员Will Hang与Wenjie Zi联袂登场,带来了一场关于企业级智能体优化策略的深度探讨。他们重点介绍了一种名为Agent RFT的创新方法,这是一种专门为工具使用型智能体设计的强化微调技术,能够显著提升智能体在复杂多步骤任务中的综合表现。
这场分享的核心,在于揭示如何让AI智能体更高效、更可靠地使用工具完成任务。
Agent RFT本质上是一种基于强化学习的模型微调方案,其目标不仅仅是让智能体学会调用工具,更是让它在长期的决策序列中学会规划,优化效率与成本。
从提示词优化到模型微调的渐进路径
在演讲中,Hang强调了一条实用的改进路径:在考虑修改模型权重之前,应该先从优化提示词和任务设计入手。
图片
他列举了多个实际案例,例如简化需求描述、添加防护机制以防止工具误用、改进工具描述、优化工具输出质量等。这些看似微小的调整,往往能让智能体做出更明智的下游决策。
尽管这些优化方法通常能带来立竿见影的效果,但在那些需要跨工具交互、进行一致性多步骤推理的复杂任务上,其提升可能会遇到瓶颈。此时,就需要考虑更深层次的模型微调方案。
微调方法的选择:从监督学习到强化学习
Hang将微调选项描述为一个连续谱系:
• 监督微调:当输入到输出存在可预测的映射关系,且目标是模仿一致的风格或结构时,这种方法非常有效。
• 偏好优化:通过成对比较来调整输出,使其更接近人类偏好的响应。OpenAI的Direct Preference Optimization指南将其描述为通过比较模型输出来进行微调的方法,目前主要限于文本输入和输出。
• 强化微调:这种方法更适用于需要模型在较长轨迹中发现策略,而非简单复制单一演示完成模式的任务。
警惕奖励破解!解决评分器中可能存在的任何边缘情况。连续奖励比二元奖励效果更好。—— Will Hang, OpenAI
Agent RFT:为工具使用型智能体量身定制
Agent RFT是强化微调技术在工具使用型AI智能体上的专门适配。
图片
在训练过程中,模型会探索不同的策略,并从评分器获得学习信号。OpenAI的文档将这一循环描述为:采样候选响应、使用自定义评分器进行评分、基于这些分数更新模型。
Hang特别强调了跨完整轨迹的信度分配,这意味着包括工具选择和工具调用结构在内的早期决策,都可以基于下游结果得到强化或抑制。
他将AI智能体定义为一个能够通过工具与外部世界交互的系统,而不仅仅是响应用户提示。
工具生态与评分器设计
Hang描述了多种工具使用场景,包括编程智能体的终端工具、客户支持场景中的内部业务系统、文档搜索或检索引擎端点等。
他特别强调,工具输出会流回同一个上下文窗口,因此工具调用、工具输出、推理标记和最终响应共同构成了一个单一的多步骤轨迹。
在这一工作流中,评分器成为核心组件。演讲中介绍了多种评分风格,包括简单匹配器、基于模型的判断器、基于代码的评分器、端点评分器,以及组合多种评分器来共同优化准确性和延迟。
超越准确性的运营属性优化
除了答案准确性,Agent RFT还关注那些仅靠准确率无法捕捉的运营属性。
Hang描述了使用Agent RFT来减少不必要的工具调用、强制执行工具调用预算、减少超长轨迹的长尾分布,这些都能有效降低不可预测的延迟并改善用户体验。
幻灯片展示了训练轨迹,显示推理标记和工具调用在训练过程中逐渐减少,这与智能体能够学会使用更少的步骤达到相似或更好任务结果的观点一致。
实际应用案例:金融领域的智能文档检索
Wenjie Zi在演讲的后半部分分享了具体用例和平台设置细节,包括一个面向金融领域的示例。
在这一场景中,模型必须在受限的工具调用预算下,从大型文档语料库中定位相关内容。智能体使用搜索、列表和文件读取工具,然后由评分器对最终答案进行评分。
Zi特别强调,即使对于数值答案,也使用基于模型的评分器,以减少因表面格式差异、单位或微小变化导致的假阴性结果。这种方法能够更准确地评估答案的正确性。
跨领域的应用价值
Zi还描述了在智能编程和其他领域的更广泛示例,重点关注具有多种工具、隔离执行环境和奖励设计的环境,这些设计需要平衡正确性、流程和效率。
报告的结果强调了改进的规划能力、减少的长轨迹尾部,在某些情况下还出现了向并行工具调用的转变,以减少顺序轮次。
对于希望深入了解的开发者,可以查阅OpenAI的强化微调和模型优化文档。
本文基于InfoQ对QCon+AI NYC 2025大会的报道整理,原文作者Andrew Hoblitzell为Salesforce高级技术团队成员。
相关攻略
2026年,科学研究的范式正在悄然改变。人工智能,这位曾经的“辅助工具”,如今正以“合作者”的身份,深度介入从数学证明到黑洞物理的前沿探索。它带来的不仅是效率的提升,更是一种思维模式的拓展——科学加速的时代,已然拉开序幕。 从三个夜晚到一页证明:AI如何成为数学家的“思维翻跟斗” 数学,被誉为科学的
欧盟的监管目光,正聚焦于ChatGPT。据路透社4月10日报道,欧盟委员会已启动一项评估,核心议题是:ChatGPT是否应被认定为《数字服务法》(DSA)框架下的“大型在线平台”,从而接受更严格的监管。 这一审查的触发点,是OpenAI主动披露的用户规模数据。根据DSA规定,月活跃用户数超过4500
一桩不同寻常的诉讼,将人工智能的潜在风险再次推至公众视野。据科技媒体The Decoder报道,美国加州旧金山高等法院近日受理了一起案件:一名匿名女子起诉OpenAI,指控其开发的GPT-4o模型助长了前男友的严重妄想症,并成为其对自己进行跟踪骚扰的“帮凶”。 事情的主角是一位53岁的硅谷企业家。在
凌晨三点四十五分,一场针对OpenAI首席执行官山姆·奥特曼住宅的袭击发生了。据警方通报,一名20岁的男子向房屋投掷了简易燃烧瓶。所幸,燃烧瓶偏离了目标,没有造乘人员伤亡。嫌疑人随后被逮捕。 事件发生后,奥特曼在社交媒体上向公众报了平安。他罕见地分享了一张家庭照片,并附上了一段引人深思的文字。 我分
当地时间4月12日凌晨,旧金山的一处高档住宅区再次被刺耳的枪声打破宁静。这一次,枪口对准的是OpenAI首席执行官萨姆·阿尔特曼的家。据《旧金山标准报》报道,这已是短短45小时内,这位AI领域的风云人物住所遭遇的第二次袭击。 第一次袭击发生在4月10日凌晨,一名20岁男子向阿尔特曼的住所投掷了燃烧弹
热门专题
热门推荐
近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度
在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX
想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一
想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏
当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来





