首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
清华DeepDive深度搜索Agent实现重大技术突破

清华DeepDive深度搜索Agent实现重大技术突破

热心网友
90
转载
2025-09-22

为大型语言模型(LLM)引入网页浏览功能,可大幅增强其在复杂现实任务中的搜索能力,成为更强大的智能搜索代理(Agent)。但现有开源LLM在这一领域表现欠佳,主要受限于其长程推理能力不足,以及缺乏高质量训练数据。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

清华大学与东北大学联合研究团队创新性地提出了DeepDive解决方案。该方法巧妙结合知识图谱(KG)的自动数据生成与端到端的多轮强化学习(RL)训练机制,成功打造出具备复杂推理和网络搜索能力的智能代理。

DeepDive研究概览

详细论文

实验数据显示,经过该方案训练的DeepDive-32B模型在BrowseComp测试中取得14.8%的准确率。这一成果有力证明了在深度搜索场景中,工具调用与并行采样的测试优化策略确实有效。

DeepDive性能对比

研究团队还开源了半自动独立同分布深度搜索问答数据集。仅使用这一数据集,DeepDive-32B在BrowseComp上的表现就提升至22.2%,展示了数据质量的关键作用。

数据增强效果

这些创新数据集和训练方法同样提升了GLM-4.5系列开源模型的表现。目前所有DeepDive相关资源(数据集、模型、代码)已全部开源。

技术实现路径

现有开放模型在深度搜索领域与传统闭源LLM存在显著差距。研究团队分析认为,这一差距主要源于两方面瓶颈:高质量训练数据匮乏,以及缺乏高效的多轮强化学习机制。

DeepDive的创新突破正是针对这两大痛点:

  • 采用知识图谱自动生成复杂查询问题
  • 运用端到端多轮RL技术增强模型的长程推理能力

在数据建设方面,研究团队充分利用知识图谱的结构化特性,通过随机游走提取多跳路径,并刻意模糊关键信息,构建出具有挑战性的训练数据。这种"模糊实体"的设计极大提升了数据的训练价值。

知识图谱数据合成流程

在训练方法上,创新性地采用多轮GRPO算法进行端到端RL训练。为提升效率,还引入提前退出机制:当模型出现错误时,立即终止当前训练并给予负面反馈,确保训练数据的纯净度。

多轮RL训练架构

性能评估

研究团队在BrowseComp、BrowseComp-ZH等四个高标准测试集上验证了DeepDive的表现。结果显示:

  • 在复杂搜索任务中明显优于其他开源方案
  • 模型性能会随工具调用预算增加而提升
  • 学到的复杂搜索能力可向下迁移至简单任务

深度搜索基准测试结果

RL训练效果曲线

局限与展望

虽然取得突破,DeepDive仍存在改进空间:

  • 生成数据的难度仍低于顶级测试集
  • 在某些场景可能出现"过度搜索"现象

未来研究方向包括优化RL奖励机制、改进训练策略等。团队相信这些改进将进一步提升模型的深度搜索能力。

来源:https://36kr.com/p/3477371196807808
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

《七界梦谭》长戟刚鬣boss打法攻略
游戏攻略
《七界梦谭》长戟刚鬣boss打法攻略

七界梦谭长戟刚鬣boss怎么打?全面打法机制解析 在《七界梦谭》中,即将登场的精英首领“长戟刚鬣”以其独特的造型与高难度的战斗机制,成为了众多玩家关注的焦点。它通体呈现深邃的黑色,外形轮廓融合了刺猬般的刚刺与修长的尾部,移动时带有鼠类特有的迅捷与灵动。其名“刚鬣”源于古语,精准地描述了它颈背部如刀锋

热心网友
04.15
王者荣耀世界pk模式怎么玩-王者荣耀世界pk模式玩法全解析
游戏资讯
王者荣耀世界pk模式怎么玩-王者荣耀世界pk模式玩法全解析

王者荣耀世界的 pk 模式是玩家展现实力、与各路高手激烈对抗的舞台 想体验更自由、更开放的竞技快感吗?王者荣耀的PK模式,正是这样一个让你与各路高手一决高下的舞台。在这里,战斗的规则更灵活,策略的博弈也更直接,能带来与常规对战截然不同的竞技乐趣。 参与条件 参与门槛并不复杂:当玩家等级达到要求,并且

热心网友
04.15
我在AI
AI
我在AI

我在AI是什么 简单来说,“我在AI”是一款来自南京有零科技的免费人工智能应用。它的核心思路挺有意思:不再提供单一的聊天机器人,而是打造了一个多元化的“智能体”生态。用户可以根据自己的喜好,选择不同性格、设定的人设进行互动,相当于把选择权交给了用户,让AI服务于更个性化的生活场景。 我在AI的主要功

热心网友
04.15
张雪机车LOGO陷抄袭国外品牌标识争议 真相藏不住了
业界动态
张雪机车LOGO陷抄袭国外品牌标识争议 真相藏不住了

张雪机车LOGO陷抄袭争议:一场关于“原创”的舆论风波 最近几天,机车圈里有点热闹。一组对比图在网络上流传开来,把张雪车品牌的LOGO和国外一个已有标识放在了一起。仔细一看,二者在图形结构、线条走势,乃至整体轮廓上,确实有着高度的相似性,差别似乎只存在于一些微小的细节处理上。 这事儿之所以迅速发酵,

热心网友
04.15
mysql报Server selection timeout怎么办_排查负载均衡器配置与节点存活检查
数据库
mysql报Server selection timeout怎么办_排查负载均衡器配置与节点存活检查

MySQL连接报Server selection timeout怎么办?排查负载均衡器配置与节点存活检查 首先需要明确一个核心概念:Server selection timeout这一错误信息,本质上是MongoDB驱动层抛出的异常,与MySQL服务自身的运行状态并无直接关联。它通常出现在错误混用M

热心网友
04.15