清华DeepDive深度搜索Agent实现重大技术突破
为大型语言模型(LLM)引入网页浏览功能,可大幅增强其在复杂现实任务中的搜索能力,成为更强大的智能搜索代理(Agent)。但现有开源LLM在这一领域表现欠佳,主要受限于其长程推理能力不足,以及缺乏高质量训练数据。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
清华大学与东北大学联合研究团队创新性地提出了DeepDive解决方案。该方法巧妙结合知识图谱(KG)的自动数据生成与端到端的多轮强化学习(RL)训练机制,成功打造出具备复杂推理和网络搜索能力的智能代理。

实验数据显示,经过该方案训练的DeepDive-32B模型在BrowseComp测试中取得14.8%的准确率。这一成果有力证明了在深度搜索场景中,工具调用与并行采样的测试优化策略确实有效。

研究团队还开源了半自动独立同分布深度搜索问答数据集。仅使用这一数据集,DeepDive-32B在BrowseComp上的表现就提升至22.2%,展示了数据质量的关键作用。

这些创新数据集和训练方法同样提升了GLM-4.5系列开源模型的表现。目前所有DeepDive相关资源(数据集、模型、代码)已全部开源。
技术实现路径
现有开放模型在深度搜索领域与传统闭源LLM存在显著差距。研究团队分析认为,这一差距主要源于两方面瓶颈:高质量训练数据匮乏,以及缺乏高效的多轮强化学习机制。
DeepDive的创新突破正是针对这两大痛点:
- 采用知识图谱自动生成复杂查询问题
- 运用端到端多轮RL技术增强模型的长程推理能力
在数据建设方面,研究团队充分利用知识图谱的结构化特性,通过随机游走提取多跳路径,并刻意模糊关键信息,构建出具有挑战性的训练数据。这种"模糊实体"的设计极大提升了数据的训练价值。

在训练方法上,创新性地采用多轮GRPO算法进行端到端RL训练。为提升效率,还引入提前退出机制:当模型出现错误时,立即终止当前训练并给予负面反馈,确保训练数据的纯净度。

性能评估
研究团队在BrowseComp、BrowseComp-ZH等四个高标准测试集上验证了DeepDive的表现。结果显示:
- 在复杂搜索任务中明显优于其他开源方案
- 模型性能会随工具调用预算增加而提升
- 学到的复杂搜索能力可向下迁移至简单任务


局限与展望
虽然取得突破,DeepDive仍存在改进空间:
- 生成数据的难度仍低于顶级测试集
- 在某些场景可能出现"过度搜索"现象
未来研究方向包括优化RL奖励机制、改进训练策略等。团队相信这些改进将进一步提升模型的深度搜索能力。
热门专题
热门推荐
七界梦谭长戟刚鬣boss怎么打?全面打法机制解析 在《七界梦谭》中,即将登场的精英首领“长戟刚鬣”以其独特的造型与高难度的战斗机制,成为了众多玩家关注的焦点。它通体呈现深邃的黑色,外形轮廓融合了刺猬般的刚刺与修长的尾部,移动时带有鼠类特有的迅捷与灵动。其名“刚鬣”源于古语,精准地描述了它颈背部如刀锋
王者荣耀世界的 pk 模式是玩家展现实力、与各路高手激烈对抗的舞台 想体验更自由、更开放的竞技快感吗?王者荣耀的PK模式,正是这样一个让你与各路高手一决高下的舞台。在这里,战斗的规则更灵活,策略的博弈也更直接,能带来与常规对战截然不同的竞技乐趣。 参与条件 参与门槛并不复杂:当玩家等级达到要求,并且
我在AI是什么 简单来说,“我在AI”是一款来自南京有零科技的免费人工智能应用。它的核心思路挺有意思:不再提供单一的聊天机器人,而是打造了一个多元化的“智能体”生态。用户可以根据自己的喜好,选择不同性格、设定的人设进行互动,相当于把选择权交给了用户,让AI服务于更个性化的生活场景。 我在AI的主要功
张雪机车LOGO陷抄袭争议:一场关于“原创”的舆论风波 最近几天,机车圈里有点热闹。一组对比图在网络上流传开来,把张雪车品牌的LOGO和国外一个已有标识放在了一起。仔细一看,二者在图形结构、线条走势,乃至整体轮廓上,确实有着高度的相似性,差别似乎只存在于一些微小的细节处理上。 这事儿之所以迅速发酵,
MySQL连接报Server selection timeout怎么办?排查负载均衡器配置与节点存活检查 首先需要明确一个核心概念:Server selection timeout这一错误信息,本质上是MongoDB驱动层抛出的异常,与MySQL服务自身的运行状态并无直接关联。它通常出现在错误混用M





