从回答者进化到研究员:Deep Research全面解析
自AI技术普及以来的两年间,用户已经习惯将其视为“全能型知识库”——提问即得答案,上传文字即获摘要。然而,当面对“预测某行业未来五年发展趋势”或“撰写一份详细的技术竞品调研报告”这类真正复杂的任务时,传统大型语言模型(LLM)的局限性便显现出来:缺乏深度分析能力、容易产生事实幻觉(hallucination),且上下文长度限制成为显著瓶颈。
Deep Research的设计初衷正是为了攻克这一核心痛点。它不再仅仅是被动应变的聊天机器人,而是一个具备自主推理能力的“AI研究员”。简而言之,其目标在于:当信息需求横跨多个来源、需处理大量非结构化数据时,如何让AI从“信息搬运工”升级为“信息加工者”。
接下来,我们将深度解析其运行机制、背后的工程挑战,以及它如何通过一套独特的范式,重新定义信息获取的流程。
1、研究背景
在AI问世的两年间,用户早已习惯将其视为“超级百科全书”:直接提问事实即可获得答案,输入段落即可获得总结。然而,当面临“分析某行业未来五年趋势”或“撰写详尽的技术竞品调研报告”这类复杂任务时,传统LLM明显力不从心——它们缺乏深度推理能力,容易产生幻觉,且受限于上下文窗口长度。
Deep Research正是为应对这一现实痛点而生。它不再是一个简单的对话式机器人,而是具备自主推理能力的“AI研究员”。接下来的内容中,我们将系统剖析Deep Research的工作原理、其背后的工程难题,以及它如何借助“ReAct范式”从根本上重塑信息获取的方式。
2、什么是Deep Research
Deep Research是一款专为网页浏览、数据分析和复杂多步任务而优化的全新功能。与普通LLM“问什么答什么”的被动响应模式不同,Deep Research具备主动规划与深度推理的核心能力。
它的关键特征可归纳为:
自主性(Autonomy): 它能够一边思考,一边“查阅资料”。不仅仅是检索信息,还能自主判断信息是否充足;若不足,它会主动调整搜索关键词进行二次检索。
长链条推理(Long-chain Reasoning): 基于LLM的推理能力,它能将一个模糊的庞大需求拆解为多个子步骤,分阶段逐步执行。
专业报告生成: 最终输出的不再是零散的对话片段,而是包含逻辑摘要、清晰引用来源以及完整文档的专业级研究报告。
为何我们需要这项能力?当前的信息需求常需跨越多个数据源、浏览大量非结构化页面。Deep Research有效降低了“海量信息收集”与“高质量推理整合”之间的门槛,尤其擅长挖掘那些需要浏览数十个网页才能拼凑出的冷门或非直观信息。
3、核心原理:从DeepSearch到DeepResearch
要深入理解Deep Research,需从两个层级来审视:底层的搜索循环(DeepSearch)和上层的报告框架(DeepResearch)。
3.1 核心引擎:DeepSearch(循环与迭代)
DeepSearch的本质是一个“搜索 — 阅读 — 推理”的无限循环。这与我们熟悉的ReAct Agent范式高度相似,但通过强化学习(RL),它不仅学会了推理,更学会了“搜索策略”:
搜索(Search): 探索互联网,获取原始信息。
阅读(Read): 对特定网页进行详尽的语义分析,提取关键片段。
推理(Think): 这是最关键的环节。模型会评估当前已收集的信息是否足以回答问题。若不足,它决定是将问题拆解为更小的子问题,还是尝试全新的搜索关键词。
这种“思考→<搜索>→<信息>→思考→”的迭代模式,使AI具备了“自我纠错”和“追根究底”的能力。一个非常显著的特点是,它主动认识到何时需要检索信息,而非被动等待指令。
3.2 上层框架:DeepResearch(结构化输出)
DeepSearch负责寻找答案,而DeepResearch负责撰写报告。它在DeepSearch基础上增加了一个结构化框架:
- 用户意图理解与目录生成(TOC): 接收指令后,首先生成报告目录(例如:引言、方法论、相关工作、结论)。
- 分章节执行: 系统性地将DeepSearch引擎应用于报告的每一个章节。每个章节都是一个独立的研究任务。
- 全局整合: 最后将所有章节内容合并,进行连贯性润色,生成最终报告。
整个执行过程通常耗时5到30分钟。这在以往的即时问答场景中难以想象,但对于深度研究而言,却是极高的效率。本质上,这就是一个“带搜索能力的ReAct Agent”,只不过不再依赖提示词工程,而是直接通过强化学习学会何时搜索、何时推理。
4、工程化挑战与解决方案
Deep Research之所以能够超越普通的RAG(检索增强生成),在于它克服了一系列棘手的工程难题。通过对技术细节的复盘,我们可以一窥其背后的实现逻辑。
4.1 解决“垃圾进,垃圾出”:URL排序与清洗
4.1.1 问题描述
Deep Research在一次任务中可能扫描数百个URL。如果将这些内容全部塞给LLM,不仅浪费Token,还会导致模型“胡乱选择”答案。在漫长的研究过程中,可能会从搜索引擎结果页(SERP)收集一堆URL,每打开一个网页又能顺藤摸瓜找到大量新链接,即使去重后也轻易达到数百个。一股脑全抛给LLM显然不可行——既浪费宝贵的上下文长度,更关键的是,模型会因信息过载而做出错误判断。因此,必须引导LLM优先选取那些最有可能包含正确答案的URL。
4.1.2 解决方案:两阶段重排序(Re-ranking)
URL排序打分是Deep Research系统中的关键技术环节,直接影响信息获取的效率与质量。系统采用多层次、多维度的排序策略,确保能从海量搜索结果中快速定位最有价值的信息源。
综合评分机制是URL排序的核心。系统会综合考虑多个维度:最后更新时间、域名出现频率、网页路径结构,以及最关键的与问题的语义相关性,最终计算出综合评分。这种多维度评分机制能够全面评估URL的价值,避免单一维度的片面性。
具体评分因素包括:
- 频率信号: 若某个URL在不同信息源中多次出现,其权重会更高。同理,若某个域名在搜索结果中频繁出现,来自该域名的URL也会获得额外加分。通常,热门域名往往包含更权威的内容。
- 路径结构: 系统会分析URL的路径结构,判断哪些内容聚集在一起。若多个网址属于同一路径层级,它们会获得更高分数;但路径越深,分数加成就越低。
- 语义相关性: 使用小模型(例如:jina-reranker-v2-base-multilingual)或大模型来评估问题与每个URL文本信息(标题和摘要)的语义相关性,这是一个典型的重排序问题。每个URL的文本信息来自搜索引擎结果页(SERP)API返回的标题和摘要,以及页面上URL的锚文本。
- 最后更新时间: 某些查询对时效性要求极高,因此通常越新的URL价值越高。系统采用组合策略,综合运用SERP API的筛选功能、HTTP Header信息分析、元数据提取、内容模式识别等手段,最终给出一个带有置信度评分的时间戳。
- 受限内容识别: 部分社交媒体平台的内容受限或需付费访问。系统会积极维护一份黑名单,将这些有问题的URL和域名记录下来,降低其排名,避免在无法访问的内容上浪费计算资源。
- 域名多样性: 为提高结果多样性,避免陷入“局部最优”,系统采用“探索-利用”策略:从每个域名下选取排名靠前的Top K个URL。
粗排与精排:
- 粗排: 快速筛选,追求高召回率。
- 精排: 对粗排结果进行深度评估。此处通常采用基于重排模型(Cross-Encoder)或基于LLM的重排序。利用LLM的语义理解能力,甚至使用滑动窗口算法(从后向前滑动),对候选段落进行相关性打分,确保只有含金量最高的信息进入下一阶段。
粗排检索效率较高,但召回的内容未必强相关。精排效率较低,因此适合在粗排基础上进一步优化。重排的任务就是评估这些上下文的相关性,优先考虑那些最有可能提供准确和相关信息的内容。
重排方法主要分为两大类:
基于重排模型: 这类模型能够输出文档与查询之间的相关性,针对一个查询和文档对,输出相似度分数。我们利用该分数对文档按相关度重新排序。解决了传统检索方法(如BM25、向量检索)的局限性,包括语义模糊、长尾关键词漏检、多模态意图理解不足等问题。优化检索结果的Top-K排序,提升后续LLM生成答案的准确性和效率。
基于LLM: 由于大模型能更全面地捕捉语义信息,也可用于重排序。通过Prompt引导LLM进行重排序,直接利用其语义理解能力对所有候选段落进行相关性排名。若文档数量庞大,LLM可能无法一次性处理全部文本,系统会使用滑动窗口算法(顺序从后向前),将前一个窗口中的前两个段落纳入下一个窗口的重排序。
4.2 解决“大海捞针”与“上下文丢失”:长网页内容提取
4.2.1 问题描述
读取网页内容后,需要将其作为一条知识信息放入Agent的上下文中,供其推理。虽然将全部内容直接塞入LLM上下文是最简单的做法,但考虑到Token成本和生成速度,这并非最佳选择。实际应用中,需要找出内容中与问题最相关的部分,只将这些部分作为知识添加到Agent的上下文。
一边是问题(原始查询或“信息差”问题),另一边是大量Markdown内容,其中大部分无关紧要。需要选出与问题最相关的片段。
有限数量文档中的有限数量的文本块:假设每个块大约500个Token,一个典型的长网页文档大约有20万Token(中位数)到100万Token。每一步抓取4-5个URL,会产生约几百个文本块。也就是说,只需在内存中处理几百个向量和几百个余弦相似度计算,完全无需向量数据库。
需要连续的文本块来形成有效的知识摘要:不能接受由分散句子组成的摘要。更有用的知识摘要应保持文本连贯性,这样LLM更容易从知识源中复制和引用,同时减少“幻觉”。
网页内容动辄数万Token,且充满噪声。如何提取有效信息并保持上下文连贯?
4.2.2 解决方案:迟分算法(Late Chunking)
传统RAG会直接对文档进行切块(Chunking)然后向量化,但这会导致切块丢失全局上下文(例如代词“它”在切块后无法确认指代对象)。
Late Chunking(迟分): 这是一个极为精妙的优化策略。它不急着切块,而是先使用支持超长上下文的模型(如jina-embeddings-v3)对整个文档进行编码,保留全局语义。
长文档切块存在两个问题:第一是文本块分割的准确性,这不仅影响搜索结果的可读性,也关系到RAG中喂给LLM的文本块是否精准;第二是每个分块内容易丢失上下文信息。文档切完后,下一步是将每个分块批量向量化,但这容易丢掉原文档的全局上下文信息。
迟分(Late Chunking)主要解决第二个问题——上下文丢失。它并非用于寻找最佳断点或语义边界。正则表达式、启发式方法或其他技术仍可用于分块。
但迟分的不同之处在于:它不是一切完就立即将每个块向量化,而是先在整个文档的上下文窗口中进行编码(jina-embeddings-v3最新SOTA向量模型,支持8192 Token的长输入),然后根据边界线索进行均值池化操作。
其工作原理类似于一维卷积(Conv1D)。流程是:先将长文档分割成固定长度的块,然后用开启迟分的jina-embeddings-v3向量化这些文本块。计算每个块与问题的相似度分数后,一个滑动窗口会在这些分数上移动,找到平均值最高的窗口。
通过迟分与类似“一维卷积”的均值池化,就能挑选出与问题最相关的段落。
均值池化: 在生成向量后,再根据边界线索进行切分和均值池化。这好比先读完一整本书理解了全意,再回过头去摘录段落,而不是每读一段就摘录一段。这样提取出的“知识块”既精准又保留了上下文,极大减少了LLM的幻觉。
4.3 解决“写不长”:突破Token输出限制
4.3.1 问题描述
上下文窗口的根本性限制: 大部分模型(例如DeepSeek-V3)单次输出通常限制在8K Token(约8000字)以内,难以一次性生成数万字的详尽报告。有人会提到某些模型能输出几万字甚至几十万字(如GPT-5和Claude Opus等),但这又会引出下面的“上下文腐烂”问题。
“上下文腐烂”现象: 当智能体频繁调用多次工具时,每次调用的“观察结果”都会追加到对话历史中,导致上下文长度爆炸式增长。这不仅带来高昂的计算成本,更会导致“上下文腐烂”(Context Rot)——随着上下文变长,模型性能反而下降。
具体表现为:
- 性能下降: 随着上下文长度增加,模型性能明显下降。Anthropic将此现象称为“上下文腐烂”(context rot)。具体表现为模型开始重复输出、推理速度变慢、回答质量降低。
- 注意力分散: Agent的上下文随时间推移必然熵增,导致注意力机制分散。
- 信息利用效率降低: 研究发现,当相关信息位于长输入上下文的开头或结尾时,模型性能最佳;而信息被放在中间位置时,性能显著下降。此外,在长上下文任务中,模型有时会倾向于直接依赖其预训练的参数知识来回答问题,而不是有效利用提供的外部长文本,进一步加剧了性能下降。
4.3.2 解决方案:双层级Agent架构(Planner + Workers)
Deep Research实际上采用了一种“规划-执行”分离架构:
- 规划Agent(Planner): 它是“包工头”。负责理解任务,生成详细的JSON格式大纲,并为每个章节分配字数预算。
- 执行Agent集群(Workers): 它们是“建筑工”。多个Agent并行工作,每个Agent认领一个章节标题,独立进行搜索、阅读和写作。
- 聚合器: 最后,一个模块像拼积木一样将各章节拼接,并进行逻辑顺滑和长度控制。
双层架构的核心设计包括:
- 监督者层级: 作为系统的“大脑”,负责将模糊需求转化为可执行计划。在prompts.py中定义的结构化提示模板指导规划器完成三项核心任务:需求澄清(通过clarify_with_user节点实现)、子主题分解(最大支持5个并行子任务)、资源分配(根据主题复杂度选择模型与工具)。
- 执行者层级: 负责具体的信息检索、内容提取和初步分析工作。执行者层级包含多个专门Agent,如搜索Agent、阅读Agent、分析Agent等,每个Agent负责特定任务。
- 状态机控制: 基于LangGraph构建的状态机实现了复杂流程的精确控制。状态机能够跟踪研究过程的每个步骤,确保任务执行的有序性和完整性。
上下文管理的创新方案:
为缓解上下文腐烂问题,系统采用了多种上下文管理策略:
- 上下文卸载技术: 系统采用“上下文卸载”来缓解上下文污染,这有助于Agent保持在正确轨道上。上下文卸载就是把信息存储在语言模型的“活跃上下文窗口”之外。将关键信息卸载出去,仅在需要时检索,从而避免模型工作内存的“过载”。
- 分级存储架构: 通过将信息按重要性和使用频率分级存储,系统能在有限的上下文中保留最重要信息,同时在需要时快速检索其他信息。
- 智能剪枝策略: 系统采用上下文剪枝技术。该技巧在RAG基础上做了优化,核心是在将检索到的信息交给主模型之前先进行一次“剪枝”。具体做法是:先检索出相关文档,然后使用一个更小、更快的模型阅读这些文档,该小模型的任务是根据用户原始问题,仅从文档中提取最核心、最相关的信息。
长文档处理的技术突破:
- 分段处理策略: 系统将长文档分成多个段落或章节,每个部分独立处理,然后通过监督者层级进行整合。这种方法避免了一次性处理整个长文档带来的上下文限制问题。
- 增量生成机制: 系统采用增量生成方式处理长篇报告。监督者层级负责制定整体结构和各部分的生成顺序,执行者层级按顺序逐步生成各部分内容。这种方式不仅避免了输出长度限制,还提高了生成内容的连贯性。
- 智能整合算法: 在各部分内容生成后,监督者层级会对内容进行智能整合。包括检查逻辑一致性、消除重复内容、优化章节顺序等,确保最终报告的质量。
4.4 生成内容打分
Deep Research在生成内容的质量控制方面采用了多层次、多维度的评分和优化机制,确保最终输出的内容既准确又有价值。
自适应评估框架是内容评分的基础。系统包含两个互补的评估框架来评估DRA能力:RACE(基于参考的自适应标准驱动评估框架,具有动态加权)用于评估生成研究报告的质量,FACT(事实丰富性和引用可信度框架)用于评估信息检索有效性和引用准确性。
RACE框架的核心特点包括:
- 动态权重分配: 对于每个任务,评判LLM通过多次试验获得每个维度的权重,并取平均值作为最终权重,确保评估与任务意图一致。所有维度的生成标准被聚合到一个综合列表中,评判LLM然后根据每个标准分析目标报告和参考报告,为两份报告生成每个标准的分数列表,用于最终得分计算。
- 多维度评估: 框架首先基于领域知识确立四个顶层评测维度:全面性(COMP)、洞察力/深度(DEPTH)、指令遵循(INST)和可读性(READ)。对于每个具体任务,评判LLM会动态计算各维度的权重,并为每个维度生成一组定制化的评测标准。
- 自适应逐点质量评估: 评估模块包含自适应逐点质量评估和主动事实核查两大核心组件,既解决了“判分死板”的问题,又实现了“全面查错”的目标。自适应逐点质量评估打破了固定维度的限制,为每个任务量身定制评分标准。该组件首先保留4个通用评估维度,同时针对每个具体任务自动生成1-3个专属评估维度。
主动事实核查机制确保了内容的准确性。系统不会只机械地检查报告里标注的引用来源,而是会像一个侦探一样主动上网搜索交叉验证报告中的每一个说法,无论是否有出处,从而保证评分的绝对严格。
这种机制的实现包括:
- 自动识别关键陈述: 系统会自动识别报告中的关键陈述和数据,包括事实性描述、数值数据、因果关系等。
- 多源交叉验证: 对于每个关键陈述,系统会从多个独立来源进行验证,确保其准确性。
- 置信度评估: 系统会为每个验证结果给出置信度评分,高置信度的内容会被保留,低置信度的内容会被标记为需要进一步核实。
内容修改与优化策略: 基于评分结果,系统会采用多种策略对内容进行修改和优化:
- 基于评分的自动修正: 当系统发现内容存在事实错误或逻辑问题时,会自动进行修正。这种修正不是简单的替换,而是基于多个可靠来源的信息进行综合判断。
- 人工干预机制: 对于复杂的问题或存在争议的内容,系统会提示用户进行人工干预,确保最终内容的准确性和客观性。
- 风格一致性优化: 系统会检查整篇报告的语言风格、术语使用、格式规范等,确保全文的一致性和专业性。
- 结构优化: 根据内容的逻辑关系,系统会对报告的结构进行优化,确保章节安排合理、层次分明。
5、Deep Research vs Manus
Manus更像一个高度工程化的Agent平台,它整合了大量工具(浏览器、代码解释器等),强项在于“任务调度”。而Deep Research则是模型层面和架构层面的进化,它通过强化学习或架构优化让模型理解“如何搜索”和“如何推理”的策略,是一种更原生、更自主的智能。因此,Deep Research能够胜任文献综述撰写、市场与竞品分析、行业研究报告、投融资研报、市场调研、新闻热点追踪、生活决策等任务,同时在检索过程中高效沉淀有用信息。
6、总结
从初次体验Deep Research来看,它确实令人眼前一亮,仿佛正跨越一道新的门槛:从信息的搬运工,进化成信息的加工者。它不再要求用户费尽心思设计Prompt,也不需要用户逐个点击链接。它展示了AI作为“思考者”的潜力——它知道自己不知道什么,并且知道去哪里找到答案。对使用者而言,这意味着可以将最耗时的“信息收集与整理”阶段外包给AI,从而专注于更高维度的决策与创新。
后续我们将继续探讨如何在真实业务场景中充分释放Deep Research的能力。
相关攻略
其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构
大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。
科技的浪潮正以前所未有的速度重塑着我们的工作场景。曾被视为未来概念的AI办公软件,如今已悄然成为现实工具箱中的一员。面对这个瞬息万变的时代,如何借助新一代AI工具来撬动团队效率、重塑协作模式,无疑是摆在每一位职场人面前的核心课题。今天,我们就来深入聊聊这场正在发生的办公革命。 当AI遇上办公:从工具
综合2026年行业公开数据及各企业在GEO(生成式引擎优化)领域的技术落地成果,本次重点推荐的前三家公司为知道人工智能实验室(KnowAI)、深维智信、赛博推;其余七家则各具特色,在细分方向上均有显著建树。 评选标准 本次评选基于2026年国内AI营销与GEO优化服务市场的实际发展情况,从以下四个维
想要利用即梦AI快速创作出小红书上备受欢迎的照片拼贴墙?让多张生活照、产品图或旅行照自动组合成富有呼吸感、包含留白节奏的创意展示页面,避免千篇一律的九宫格堆砌。 核心方法只需三步:首先通过提示词让AI构建整体骨架,接着导入照片并固定位置坐标,最后运用光影、材质和留白技巧进行微调,注入宛如空气流动般的
热门专题
热门推荐
《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非
山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,
近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。





