游乐游手机版
首页/AI教程/文章详情

REDSearcher实现30B参数深度搜索Agent低成本可扩展超越GPT-5

时间:2026-06-01 20:16
“2018至2023年间,在EMNLP会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学,那篇科学论文的题目是什么?” 回答这道题不能仅靠死记硬背。真正的核心挑战在于,智能体必须在动态环境中反复假设、验证并修正自己的推理路径,同时保持逻辑一致性,最终将零散的证据

“2018至2023年间,在EMNLP会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学,那篇科学论文的题目是什么?”

回答这道题不能仅靠死记硬背。真正的核心挑战在于,智能体必须在动态环境中反复假设、验证并修正自己的推理路径,同时保持逻辑一致性,最终将零散的证据碎片拼合成一条自洽的链条。这正是深度搜索的本质所在。

2025年被誉为AI Agent元年,但真正实现自主的Agent,其核心在于“深度搜索”——一种类似人类专家在长程任务中精准锁定目标、反复核验信息、灵活调整策略的能力。然而,要训练出这样的Agent,面临三大障碍。

首先,数据稀缺问题。高难度的长程问答任务几乎完全依赖人工标注,成本高昂。因此,首要目标是构建一条能够自动合成高难度问题的流水线。

其次,能力鸿沟问题。预训练模型虽然知识储备丰富,但一旦投入真实环境进行长期交互,便显得力不从心。这一短板需要通过一个成本可控的中间训练阶段来弥补。

第三,环境缺失问题。直接在真实环境中训练不仅成本高,而且不可控。构建一个功能等价的模拟环境,能够在本地复现搜索过程,加速算法迭代,这才是务实的选择。

为攻克上述瓶颈,REDSearcher团队设计了一套低成本、可扩展的训练框架。最终,采用30B参数的模型,在深度搜索任务上不仅取得了开源模型的SoTA,甚至超越了GPT-5等一系列闭源模型。

那么,什么才算得上是“困难”的搜索题目?许多人仅关注推理跳数,但真正的难点在于问题的结构性复杂度。

1. 拓扑复杂度:利用树宽衡量“结构性困难”

在复杂任务中,信息经常分叉、交织甚至形成回环。Agent需要同时记忆多路推论,不断验证其一致性,并随时准备整体回溯——这正是深度搜索的核心挑战。为此,团队引入图论中的 TreeWidth(树宽)来量化这种结构性复杂度。以下是几种典型结构:

  • 线性/树状(树宽=1):典型的链式推理,按序检索即可解决。
  • 菱形/回环(树宽=2):出现分叉与重汇,Agent需保持多路假设的一致性,遇到矛盾需回溯。
  • 强耦合子图(树宽≥3):形成网状约束,零散证据需整合为一致整体,迫使模型进行全局验证与回溯,难度显著提升。

2. 信息分散度:避免搜索“捷径”

即使问题的结构再复杂,如果某个网页恰好包含所有关键事实,模型一次检索就能直接获取答案,那么难度便名存实亡。因此,团队引入了“信息分散度”——即覆盖全部关键证据所需的最小来源数量。该数值越大,表明相关正确片段在网络中分布得越零散,Agent需与外部环境进行更多轮次的交互才能集齐信息。

基于这两个约束,团队采用 graph-to-text 流程合成数据:首先根据树宽与信息分散度生成推理图,然后将其转换为自然语言问题,并通过多层校验确保“高难度、可解且答案唯一”。同时,设计了两套图构造流程,分别基于“结构化信息”和“网络浏览”,以覆盖不同搜索环境。

在问题合成过程中,有两个关键技术值得强调:

  • 拓扑结构增强:直接生成高树宽图的成功率较低。为此,团队引入大模型智能体对初始依赖图进行“拓扑加密”,通过添加环状和交错约束,显著提升结构复杂度,迭代增加问题难度。
  • 工具增强的问题合成:在问题构造阶段,主动植入工具调用需求。例如,将关键实体替换为隐含工具依赖的表达——地名替换为地图服务、文章替换为谷歌学术——使工具调用成为解题的必备条件。

在文本合成基础上,REDSearcher进一步通过模态注入,将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中。

  • 视觉属性锚定:用图像描述替换节点的文本属性,迫使模型先识别图像,再关联知识。
  • 跨模态依赖:设置视觉不可替代的约束,使图像搜索成为推理的必经环节,而非可选的冗余信息。
  • 视觉语义抽象:用抽象指代替代直接命名,迫使模型识别图像内容后再进行搜索。
  • 模态灵活插入:视觉证据可插入推理链的任意位置——前期设置可增加难度,后期引入则用于验证,实现难度的精细调控。

通过这套轻量级扩展,REDSearcher能够高效迁移至多模态搜索领域,合成高质量的图文深度搜索问题。

预训练模型缺乏多轮交互训练,在长程搜索中易出现目标漂移和重复搜索。为此,REDSearcher采用一个可扩展的两阶段Mid-Training框架,依次强化模型的“原子能力”和“组合能力”,实现从语言建模到智能体的平滑过渡。

原子能力建设聚焦于两个基础能力:

  • 意图锚定:从含噪观测中精准抓取关键证据,过滤噪声,减少幻觉和推理漂移。
  • 层次化规划:将复杂目标拆解为可立即求解的具体目标与需要逐步消解的不确定目标,确保规划可落地。

组合能力建设则通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束:

  • 工具调用能力:通过合成工具协议与本地模拟环境交互,使模型在ReACT范式下掌握基础的外部交互能力。
  • 长程交互能力:在“功能一致”的模拟环境中,让Agent进行长程环境交互,强化规划能力与目标一致性。

后训练阶段采用 SFT + Agentic RL 双阶段增强。首先在真实环境中交互,通过多重过滤获取长程高质量轨迹,教会模型深度搜索行为;然后在真实搜索环境中进一步优化策略。

其中几个关键设计值得关注:

  • a. 低成本验证:构建“功能等价”的本地模拟环境,保持API一致、证据完备且包含噪声,加速实验迭代。
  • b. 数据质量保障:针对合成问题中可能出现的答案错误、多解等现象,采用Agent-as-Verifier对强化学习问题集进行校验,避免数据污染影响训练稳定性。

团队还观察到一个令人振奋的现象:效率与性能同步提升。随着训练进行,模型的平均交互轮次不断下降,而准确率持续上升。这表明REDSearcher并非简单的“暴力搜索”,而是学会了更精准的信息获取策略,主动减少无效调用,形成了“越训越聪明”的良性循环。

在多项深度搜索权威基准上,REDSearcher的表现十分亮眼。

  • REDSearcher在同规模开源模型中取得SoTA水平,并超越了GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet等一系列闭源先进模型(*为带有上下文管理的性能)。
  • 在BrowseComp、GAIA等深度搜索榜单上,同样超越了上述闭源模型。
  • REDSearcher-MM在多模态搜索基准中相比同规格模型取得SoTA水平,性能超过Gemini-2.5-pro,在部分基准上甚至接近Gemini-3-pro的水平。

归根结底,REDSearcher的核心在于系统性设计:从图论角度定义深度搜索的任务复杂度,以双约束优化可扩展合成数据,以两阶段中间训练降低能力迁移成本,以高质量轨迹合成结合强化学习实现持续迭代。它提供了一条可复现、低成本的深度搜索智能体训练路径,使AI系统从静态知识查询,真正迈向开放环境下的自主探索、验证与信息整合。

来源:https://cloud.tencent.com.cn/developer/article/2679857
上一篇vLLM 0.22大版本升级 DeepSeek V4生产级优化 KV Cache极致压缩 下一篇五大实用策略提升公文写作培训效率与能力
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw浏览器自动化控制 Playwright MCP与Mcporter方案实现完整流程步骤详解教程
AI教程 · 2026-06-01

OpenClaw浏览器自动化控制 Playwright MCP与Mcporter方案实现完整流程步骤详解教程

概述 这篇文章记录了把Playwright MCP集成到OpenClaw中,并用Mcporter作为中间桥梁的完整测试过程。内容包括问题诊断、架构理解,以及正确的使用方法——说白了,就是带大家把整个链路彻底捋清楚。 先交代一下背景:为啥折腾这个方案?说实话,就是熬夜后闲得慌,突发奇想想在家里搞搞Op

AI写业务代码后必须坚持的过程控制
AI教程 · 2026-06-01

AI写业务代码后必须坚持的过程控制

前言AI 已经能极其高效地帮我们搞定业务代码了。这个结论经过反复验证,基本上没什么悬念。但问题也随之而来:越是这样,越容易陷入失控状态——想到哪写到哪,总盼着 AI 一口气把活儿全干了。业务代码和 demo 最大的不同在于,业务从来不是孤立的。它牵扯着一连串的业务流程、历史包袱、数据状态、权限边界、

我用两个高效技巧解决AI开发文档记录难题
AI教程 · 2026-06-01

我用两个高效技巧解决AI开发文档记录难题

我用 AI 写了三个月代码,结果连自己写的东西都看不懂了 一个开发者的普遍困境 从去年开始,大量开发者涌入 Claude Code 进行 AI 辅助开发。效率提升令人振奋——过去需要两天的功能,现在一个下午就能搞定。但很快,一个尴尬的问题浮出水面:三个月前自己写的代码,如今竟然看不懂了。 问题不在于

AI改坏真实App的常见问题与解决技巧
AI教程 · 2026-06-01

AI改坏真实App的常见问题与解决技巧

探索AI辅助移动端开发的过程中,我属于较早深入实践并持续积累经验的那一批。过去几个月里,我几乎每天都会在真实的iOS与Flutter项目中与AI协作调整代码:涵盖SDK封装、旧代码迁移、Demo补全、使用文档优化、多语言适配、界面检查、验证执行以及工作交接整理。因此,本文无意纠缠“AI究竟能否编写代

领导要求部署OpenClaw?先看这篇指南
AI教程 · 2026-06-01

领导要求部署OpenClaw?先看这篇指南

前几天,领导丢过来一句话:你去看一下 OpenClaw,评估一下能不能在公司内部部署。紧接着又问了一个很典型的问题:这东西到底算什么?是一种云服务吗? 仔细一想,这个问题的答案并不简单。OpenClaw 本身不等于“云平台”,但一旦真正用起来,云环境通常会深度参与。它更像一层编排和运行框架,负责把袋