清华DeepDive深度搜索Agent实现重大技术突破

首页/科技数码/文章详情

清华DeepDive深度搜索Agent实现重大技术突破

时间：2025-09-22 18:05

为大语言模型（LLM）配备浏览工具，能够显著提升其作为深度搜索智能体（Agent）解决复杂现实世界任务的潜力。然而，由于使用浏览工具进行长程推理的能力有限，且缺乏足够难度的监督数据，开源 LLM

为大型语言模型(LLM)引入网页浏览功能，可大幅增强其在复杂现实任务中的搜索能力，成为更强大的智能搜索代理(Agent)。但现有开源LLM在这一领域表现欠佳，主要受限于其长程推理能力不足，以及缺乏高质量训练数据。

清华大学与东北大学联合研究团队创新性地提出了DeepDive解决方案。该方法巧妙结合知识图谱(KG)的自动数据生成与端到端的多轮强化学习(RL)训练机制，成功打造出具备复杂推理和网络搜索能力的智能代理。

DeepDive研究概览

详细论文

实验数据显示，经过该方案训练的DeepDive-32B模型在BrowseComp测试中取得14.8%的准确率。这一成果有力证明了在深度搜索场景中，工具调用与并行采样的测试优化策略确实有效。

DeepDive性能对比

研究团队还开源了半自动独立同分布深度搜索问答数据集。仅使用这一数据集，DeepDive-32B在BrowseComp上的表现就提升至22.2%，展示了数据质量的关键作用。

数据增强效果

这些创新数据集和训练方法同样提升了GLM-4.5系列开源模型的表现。目前所有DeepDive相关资源(数据集、模型、代码)已全部开源。

技术实现路径

现有开放模型在深度搜索领域与传统闭源LLM存在显著差距。研究团队分析认为，这一差距主要源于两方面瓶颈：高质量训练数据匮乏，以及缺乏高效的多轮强化学习机制。

DeepDive的创新突破正是针对这两大痛点：

采用知识图谱自动生成复杂查询问题
运用端到端多轮RL技术增强模型的长程推理能力

在数据建设方面，研究团队充分利用知识图谱的结构化特性，通过随机游走提取多跳路径，并刻意模糊关键信息，构建出具有挑战性的训练数据。这种"模糊实体"的设计极大提升了数据的训练价值。

知识图谱数据合成流程

在训练方法上，创新性地采用多轮GRPO算法进行端到端RL训练。为提升效率，还引入提前退出机制：当模型出现错误时，立即终止当前训练并给予负面反馈，确保训练数据的纯净度。

多轮RL训练架构

性能评估

研究团队在BrowseComp、BrowseComp-ZH等四个高标准测试集上验证了DeepDive的表现。结果显示：

在复杂搜索任务中明显优于其他开源方案
模型性能会随工具调用预算增加而提升
学到的复杂搜索能力可向下迁移至简单任务

深度搜索基准测试结果

RL训练效果曲线

局限与展望

虽然取得突破，DeepDive仍存在改进空间：

生成数据的难度仍低于顶级测试集
在某些场景可能出现"过度搜索"现象

未来研究方向包括优化RL奖励机制、改进训练策略等。团队相信这些改进将进一步提升模型的深度搜索能力。

来源：https://36kr.com/p/3477371196807808

上一篇watchOS 26正式版上线：10大免费新功能提升Apple Watch体验 下一篇汕头珠宝企业IPO冲刺：年营收64亿，1500家门店布局亮眼

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-06

国内首批智能体国标发布，AI应用从验证迈向规模化

国内首批智能体国家标准正式发布，这一消息在人工智能领域引发广泛关注。简单来说，这份标准为智能体技术确立了 "定义 "，明确了分类体系、技术指标与测试方法，相当于为整个行业制定了统一规范。这意味着什么？这意味着智能体技术将告别 "野蛮生长 "，迎来标准化发展，加速其在工业制造、智慧服务、智能家居等场景的落地应

科技数码 · 2026-07-06

微星40周年限量游戏本开售 5090+96GB 55999元起

值得关注的是，微星在成立40周年之际，特别推出了限量典藏版机型——泰坦18 Ultra龙魂典藏版2026款游戏本，已于昨日零点正式开售，官方定价为55999元。此外，部分地区还可叠加国家补贴，实际到手价可低至54499元。作为40周年专属纪念款，其外观设计自然独具匠心。机身正面采用金属蚀刻与阳极氧

科技数码 · 2026-07-06

墨刀原型强调交互高保真真机演示，产品流程从草图到协作评审

原型工具究竟在解决什么问题？这个问题其实很值得探讨。不少人听到“原型设计”，第一反应往往是绘制几张静态页面、添加几个页面跳转链接，但实际的产品流程远比这复杂。墨刀在“墨刀原型”的官方说明中，将重心放在原型设计、交互、高保真和真机演示这几个核心能力上。换句话说，它并不满足于让团队只输出页面静态图，而是

科技数码 · 2026-07-06

保时捷Taycan最后两款旅行车宣告停产

保时捷正式为两款纯电旅行车系列画上终止符。据海外汽车媒体motor1报道，Taycan Sport Turismo与Taycan Cross Turismo已经停止生产。随着2027款全新纯电Taycan的推出，这两款衍生车型将从产品阵容中完全移除。保时捷官方确认，此次停产的根本原因非常明确——实际

科技数码 · 2026-07-06

墨刀白板助力市场洞察需求梳理，多工具看板服务产品评审共创

首先提出一个关键判断：在产品经理的工作流程中，原型工具通常是最为熟悉的环节。此次，墨刀将“墨刀白板”功能的定位明确聚焦在市场洞察、产品规划与需求梳理三大领域——即进入具体原型设计之前的上游协作空间。与原型工具不同，白板不侧重页面与交互细节。它更适合承载早期“发散—整理—讨论—共创—评审”的过程。简