企业AI智能体强化:OpenAI最新微调实践详解
在2025年举行的QCon+AI NYC大会上,OpenAI的研究员Will Hang与Wenjie Zi联袂登场,带来了一场关于企业级智能体优化策略的深度探讨。他们重点介绍了一种名为Agent RFT的创新方法,这是一种专门为工具使用型智能体设计的强化微调技术,能够显著提升智能体在复杂多步骤任务中的综合表现。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这场分享的核心,在于揭示如何让AI智能体更高效、更可靠地使用工具完成任务。
Agent RFT本质上是一种基于强化学习的模型微调方案,其目标不仅仅是让智能体学会调用工具,更是让它在长期的决策序列中学会规划,优化效率与成本。
从提示词优化到模型微调的渐进路径
在演讲中,Hang强调了一条实用的改进路径:在考虑修改模型权重之前,应该先从优化提示词和任务设计入手。
图片
他列举了多个实际案例,例如简化需求描述、添加防护机制以防止工具误用、改进工具描述、优化工具输出质量等。这些看似微小的调整,往往能让智能体做出更明智的下游决策。
尽管这些优化方法通常能带来立竿见影的效果,但在那些需要跨工具交互、进行一致性多步骤推理的复杂任务上,其提升可能会遇到瓶颈。此时,就需要考虑更深层次的模型微调方案。
微调方法的选择:从监督学习到强化学习
Hang将微调选项描述为一个连续谱系:
• 监督微调:当输入到输出存在可预测的映射关系,且目标是模仿一致的风格或结构时,这种方法非常有效。
• 偏好优化:通过成对比较来调整输出,使其更接近人类偏好的响应。OpenAI的Direct Preference Optimization指南将其描述为通过比较模型输出来进行微调的方法,目前主要限于文本输入和输出。
• 强化微调:这种方法更适用于需要模型在较长轨迹中发现策略,而非简单复制单一演示完成模式的任务。
警惕奖励破解!解决评分器中可能存在的任何边缘情况。连续奖励比二元奖励效果更好。—— Will Hang, OpenAI
Agent RFT:为工具使用型智能体量身定制
Agent RFT是强化微调技术在工具使用型AI智能体上的专门适配。
图片
在训练过程中,模型会探索不同的策略,并从评分器获得学习信号。OpenAI的文档将这一循环描述为:采样候选响应、使用自定义评分器进行评分、基于这些分数更新模型。
Hang特别强调了跨完整轨迹的信度分配,这意味着包括工具选择和工具调用结构在内的早期决策,都可以基于下游结果得到强化或抑制。
他将AI智能体定义为一个能够通过工具与外部世界交互的系统,而不仅仅是响应用户提示。
工具生态与评分器设计
Hang描述了多种工具使用场景,包括编程智能体的终端工具、客户支持场景中的内部业务系统、文档搜索或检索引擎端点等。
他特别强调,工具输出会流回同一个上下文窗口,因此工具调用、工具输出、推理标记和最终响应共同构成了一个单一的多步骤轨迹。
在这一工作流中,评分器成为核心组件。演讲中介绍了多种评分风格,包括简单匹配器、基于模型的判断器、基于代码的评分器、端点评分器,以及组合多种评分器来共同优化准确性和延迟。
超越准确性的运营属性优化
除了答案准确性,Agent RFT还关注那些仅靠准确率无法捕捉的运营属性。
Hang描述了使用Agent RFT来减少不必要的工具调用、强制执行工具调用预算、减少超长轨迹的长尾分布,这些都能有效降低不可预测的延迟并改善用户体验。
幻灯片展示了训练轨迹,显示推理标记和工具调用在训练过程中逐渐减少,这与智能体能够学会使用更少的步骤达到相似或更好任务结果的观点一致。
实际应用案例:金融领域的智能文档检索
Wenjie Zi在演讲的后半部分分享了具体用例和平台设置细节,包括一个面向金融领域的示例。
在这一场景中,模型必须在受限的工具调用预算下,从大型文档语料库中定位相关内容。智能体使用搜索、列表和文件读取工具,然后由评分器对最终答案进行评分。
Zi特别强调,即使对于数值答案,也使用基于模型的评分器,以减少因表面格式差异、单位或微小变化导致的假阴性结果。这种方法能够更准确地评估答案的正确性。
跨领域的应用价值
Zi还描述了在智能编程和其他领域的更广泛示例,重点关注具有多种工具、隔离执行环境和奖励设计的环境,这些设计需要平衡正确性、流程和效率。
报告的结果强调了改进的规划能力、减少的长轨迹尾部,在某些情况下还出现了向并行工具调用的转变,以减少顺序轮次。
对于希望深入了解的开发者,可以查阅OpenAI的强化微调和模型优化文档。
本文基于InfoQ对QCon+AI NYC 2025大会的报道整理,原文作者Andrew Hoblitzell为Salesforce高级技术团队成员。
相关攻略
OpenAI关闭Sora后战略转向:收购TBPN播客,深度布局内容生态 四月初的科技界新闻不断,一则来自科技媒体9to5Mac的报道引发了行业的强烈关注。OpenAI在近期宣布正式收购知名科技商业播客品牌The Browser Pane。这一战略动作紧随其视频应用Sora的停止运营之后,被外界普遍视
2025年,全球稳定币市场的格局正经历一场深刻变革。作为占据市场70%以上份额的绝对领导者,Tether(泰达公司)的一举一动都牵动着整个加密金融领域的心弦。近期,一场旨在将公司估值推高至5000亿美元的巨额融资计划浮出水面,其体量之巨,甚至足以与人工智能领域的超级明星OpenAI相提并论。这不仅标
新智元报道编辑:倾倾【新智元导读】全世界都在等ASI降临,OpenAI却在年初悄悄上线广告位。9亿用户撑不起数百亿美元的算力账单,智力正在贬值,神仙也得下凡赚钱!2025年底,一份名为ChatGPT
当地时间3月31日,OpenAI宣布完成最新一轮融资,募集资金达1220亿美元,投后估值达8520亿美元。 微信编辑 | 七三
备受瞩目的OpenAI最新轮次融资,终于落下定音槌——当地时间3月31日,OpenAI宣布完成了新一轮融资,融资规模达到惊人的1220亿美元,而投后估值则达到了8520亿美元。亚马逊、英伟达和软银,
热门专题
热门推荐
《洛克王国:世界》彼得大道蓝水晶全收集指南 对于《洛克王国:世界》的探险家而言,彼得大道的蓝水晶收集是探索蒸汽朋克街区的重要目标。整个区域总计散落着5颗珍贵的蓝水晶,它们通常隐藏在建筑的窗台边缘、显眼标志物的背面,或是不易察觉的角落中,考验着玩家的观察力。通过下方这张彼得大道地图,你可以快速建立起对
洛克王国11个古币兑换机终极位置指南与兑换攻略 在《洛克王国》的广阔世界中探索,你是否在世界各地留意到那些造型别致的“古币兑换机”?这正是将你辛苦搜集的古代钱币,转化为海量实用资源与稀有宠物蛋的核心设施。然而,分散各处的11台兑换机具体坐标,常常让玩家耗费大量时间。本文为你带来全网最详细的古币兑换机
《三角洲行动》2026年3月28日摩斯密码大全及开门位置攻略 在《三角洲行动》这款游戏中,每日更新的密码门是获取额外奖励的关键环节。地图中隐藏的摩斯密码门每天都会变化,玩家需要先精确定位,再输入正确密码才能开启。为了方便各位玩家快速获取2026年3月28日的游戏资源,本文将完整分享今日全部五张热门地
洛克王国世界巨灵石图鉴详解 它的磅礴能量,深深根植于脚下无垠的大地。作为洛克王国中最古老的岩石系精灵之一,世界巨灵石不仅精通驾驭土壤与岩石的地系魔法,还拥有一个非常独特的习性——它竟然以土壤和石块作为日常零食。你常常能在野外听见它“嘎嘣嘎嘣”咀嚼岩石的清脆声响,这个趣闻在洛克王国中流传甚广,讲述得活
外观设计亮点 钢铁真理QBZ191突击步枪,其外观设计堪称视觉与功能的结合典范。枪身采用凌厉的几何线条勾勒,呈现出极具攻击性的战斗姿态。特有的金属质感涂装工艺,使得枪体在不同光照环境下能呈现出富有层次的光影变幻,冷峻的科技美感油然而生。仔细观察,部件接缝处的精密加工与战术防滑刻纹均处理得细致入微,充





