首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
人大AI智能体提速:扩散模型实现边思考边搜索

人大AI智能体提速:扩散模型实现边思考边搜索

热心网友
21
转载
2026-02-12


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由中国人民大学、上海交通大学等机构联合完成的研究发表于2026年,论文编号为arXiv:2602.07035v1,标志着人工智能搜索代理技术的一次重要突破。有兴趣深入了解的读者可以通过该论文编号查询完整论文。

想象一下,你正在和一个超级聪明的助手对话,你问它一个复杂问题,比如"2024年诺贝尔物理学奖得主的主要研究领域与量子计算有什么关系?"传统的AI助手会这样工作:先思考一会儿该搜索什么,然后去网上搜索相关信息,等搜索结果返回后再继续思考,接着可能还要进行第二次、第三次搜索,每次都要停下来等待。这个过程就像一个厨师必须严格按顺序做菜——先切菜,等切完了再开火,等火热了再下锅,每个步骤都要等前一步完成。

然而,中国人民大学的研究团队发现了一个更聪明的方法。他们开发了一种名为DLLM-Searcher的新型AI搜索系统,就像让厨师学会了同时处理多个任务——一边切菜一边热锅,在等水开的时候准备调料。这种"边思考边搜索"的能力让整个问答过程提速了约15%,而且回答质量丝毫不减。

这项研究的核心在于使用了一种叫做"扩散大语言模型"的新技术。传统的AI语言模型就像读书一样,必须从左到右、一个字一个字地阅读和生成文本。而扩散模型则更像拼图游戏,可以同时在不同位置放置拼图块,不必严格按照顺序进行。研究团队巧妙地利用了这个特性,让AI能够在等待搜索结果的时候继续思考其他问题。

一、传统搜索助手的"等待困境"

传统的AI搜索助手面临着一个根本性问题,就像一个非常守规矩的学生,必须严格按照老师的要求一步步完成作业。当你向它提出一个需要查找信息的问题时,它会按照一个叫做ReAct的工作模式来操作。这个过程可以比作去图书馆做研究:首先,AI会坐下来思考"我应该查找什么资料",然后起身去书架找书,找到书后必须等图书管理员帮忙取书,拿到书后再回到座位上阅读,如果发现还需要更多资料,就得重复这个过程。

这种工作方式的问题显而易见:大量时间浪费在了等待上。特别是当AI需要进行多轮搜索时,这种等待时间会累积起来,就像排队买票一样,每个人都要等前面的人完全买完票才能轮到自己。研究数据显示,在处理复杂的多步骤问题时,这种等待时间可能占到总处理时间的相当大比例。

更糟糕的是,现有的扩散大语言模型虽然理论上具备并行处理的能力,但在实际应用中却表现得像一个刚学会使用电话的人,经常无法正确拨号或者说出正确的话。研究团队测试发现,原始的扩散模型在尝试执行搜索任务时,失败率接近100%。这些模型要么生成空白回应,要么无法产生正确的搜索指令格式,要么在思考过程中出现各种格式错误。

二、让AI学会"一心多用"的训练过程

为了解决这些问题,研究团队设计了一套完整的训练方案,就像为一个新员工制定详细的培训计划。这个训练过程分为两个阶段,每个阶段都有明确的学习目标。

第一个阶段叫做"代理监督微调",就像给AI上基础课程。研究团队首先让一个表现优秀的老师模型来生成大量的标准答案。这个过程类似于让优秀的老师为学生制作标准作业本。老师模型会面对各种复杂问题,展示如何一步步思考,如何制定搜索策略,如何根据搜索结果进行推理。研究团队从HotpotQA、2WikiMultiHopQA和Musique这三个数据集中各选取了2048个问题,让老师模型完成后,再筛选出3977个高质量的完整解答轨迹。

在这个阶段,研究团队还开发了一种特殊的"代理噪声处理"技术。由于扩散模型的训练需要在文本中添加"噪声",就像在拼图中故意隐藏一些拼图块让模型去猜测,但普通的噪声添加方法会让模型学到错误的信息。研究团队巧妙地设计了一种只对思考和搜索指令部分添加噪声的方法,而对搜索返回的结果保持原样,这样模型就能学会正确的推理和搜索技能,而不会被无关信息干扰。

第二个阶段是"代理方差减少偏好优化",类似于让AI进行实战演练。研究团队让经过第一阶段训练的模型对同一个问题进行两次独立回答,然后比较哪个回答更好。就像让学生做同一道题两遍,然后老师挑出做得更好的答案作为标准。通过这种对比学习,模型逐渐学会了什么是更好的推理方式和搜索策略。这个阶段使用了8000个训练样本,最终筛选出2237个有效的对比对,包含4474个回答轨迹。

三、革命性的"并行推理行动"模式

研究团队的最大创新在于开发了一种叫做P-ReAct的新工作模式。如果说传统的ReAct模式像是一个严格按照食谱做菜的厨师,那么P-ReAct就像是一个经验丰富的大厨,可以同时处理多个烹饪步骤。

这个新模式的核心思想是让AI提前规划好要执行的搜索操作。就像一个聪明的图书管理员,在开始查找资料之前就先列出要查找的所有书籍清单,然后同时派发多个查找任务。具体来说,P-ReAct通过两个关键技术实现了这个目标。

第一个技术叫做"工具调用标记预填充"。研究团队发现,可以在AI开始生成回答时就预先放置搜索指令的起始和结束标记,就像在空白纸上先画出几个框框,告诉AI要在这些框框里填入搜索命令。这种做法相当于给AI一个明确的结构模板,让它知道应该在什么地方生成搜索指令。

第二个技术是"置信度偏向"。由于扩散模型在生成文本时会给每个位置的每个可能字词分配一个置信度分数,研究团队巧妙地人为提高了搜索指令区域内字词的置信度分数。这就像给重要任务贴上"优先处理"的标签,确保AI优先完成搜索指令的生成,然后再处理思考内容。

通过这两个技术的结合,P-ReAct实现了近乎100%的搜索指令优先生成成功率。这意味着AI可以在开始复杂思考之前就先把搜索任务派发出去,然后在等待搜索结果返回的时间里继续进行深入思考。

四、实验验证:理论照进现实

研究团队在四个不同的数据集上测试了DLLM-Searcher的性能,这些测试就像让一个学生参加不同科目的考试,全面检验学习成果。测试使用的数据集包括HotpotQA、2WikiMultiHopQA、Musique和Bamboogle,它们分别代表了不同类型的复杂多步推理任务。

在性能比较方面,DLLM-Searcher表现出了令人印象深刻的能力。与传统的检索增强生成方法相比,它在准确率方面有了显著提升。比如在HotpotQA数据集上,DLLM-Searcher达到了60.4%的准确率,而最好的传统方法ReARTeR只有46.8%。更重要的是,DLLM-Searcher与基于传统自回归语言模型的搜索代理相比也毫不逊色,在某些数据集上甚至略有优势。

效率提升方面的结果更加令人兴奋。使用P-ReAct模式的DLLM-Searcher在四个数据集上分别实现了14.77%、21.00%、22.08%和12.67%的推理时间减少,平均提速约15%。这种提速是在几乎不损失准确性的前提下实现的,有些情况下准确率甚至还有小幅提升。

研究团队还进行了一个特别有意思的对比实验。他们让传统的自回归模型也尝试先生成搜索指令再进行思考,结果发现这些模型的性能会显著下降。这证明了扩散模型的独特优势:它们能够利用全局信息来生成高质量的搜索指令,即使思考过程还没有完全展开。

五、真实案例:看AI如何"边想边搜"

为了更直观地展示DLLM-Searcher的工作过程,研究团队提供了一个具体的案例分析。当面对问题"1973年NFL赛季,职业碗比赛在哪个足球场举行,该足球场是杜鲁门体育综合体的一部分,还有什么其他体育场?"时,传统模型和DLLM-Searcher展现出了截然不同的处理方式。

传统的扩散模型在尝试回答这个问题时完全失败了。它生成的搜索指令格式错误,使用了错误的特殊标记,无法被搜索系统正确解析和执行。这就像一个人想要打电话但是拨错了号码,根本无法接通。

相比之下,经过训练的DLLM-Searcher表现得像一个熟练的研究员。在处理过程的第32步时,搜索指令已经完全生成并可以立即执行,而思考部分仍然处于生成过程中。系统生成的搜索指令格式完全正确,包含了合适的查询词组,能够被搜索引擎正确理解和处理。

更令人印象深刻的是生成顺序的可视化结果。传统方法必须按照固定顺序生成文本,而DLLM-Searcher的生成顺序显示了明显的并行化特征。搜索指令部分的标记在早期就被填充完成,而思考部分的内容则在后续步骤中逐步完善。这种灵活的生成顺序正是实现效率提升的关键。

六、技术细节:在复杂中寻找简单

虽然DLLM-Searcher的实现涉及诸多技术细节,但其核心思想可以用一个简单的烹饪比喻来理解。传统的AI就像一个新手厨师,必须严格按照菜谱的每一步执行:先洗菜,洗完菜再切菜,切完菜再开火,开火后再热锅,热锅后再放油。每个步骤都要等前一步完全完成。

而DLLM-Searcher就像一个经验丰富的大厨,能够合理安排工作流程。在洗菜的同时就可以让锅子预热,在切菜的时候可以准备调料,在等水烧开的间隙可以处理其他食材。这种并行处理不仅节省了时间,还能保证最终菜品的质量。

在技术实现层面,研究团队使用了SDAR模型作为基础架构,这是一个64块大小的块扩散语言模型。训练过程使用了专门的注意力掩码和学习率调度,确保模型能够学会正确的并行生成模式。在推理阶段,系统使用128个去噪步骤,块大小为128,温度参数设为1.0,这些参数的精心调整保证了生成质量和速度的最佳平衡。

七、局限性与未来展望

尽管DLLM-Searcher取得了显著成果,但研究团队也坦诚地指出了当前方法的一些局限性。就像任何新技术都有自己的适用范围一样,这项研究也存在需要进一步改进的地方。

目前最主要的限制是训练数据的规模。虽然研究团队使用了近4000个高质量训练样本,但相比于一些大规模语言模型动辄使用数百万甚至数十亿训练样本的情况,这个规模还相对较小。这意味着模型在面对某些特殊类型的问题时可能还无法达到最优性能。

另一个局限是当前系统主要针对搜索类任务进行了优化。虽然搜索是AI助手的一个重要功能,但实际应用中还需要处理计算、推理、创作等多种不同类型的任务。将P-ReAct模式扩展到其他类型的工具调用还需要进一步的研究。

在某些复杂度极高的推理任务上,DLLM-Searcher与最先进的传统模型相比仍有一定差距。特别是在Musique数据集上,系统的表现还有提升空间。这提示研究团队需要进一步加强模型的复杂推理能力。

尽管存在这些局限性,这项研究开启了一个全新的研究方向。未来可能的发展包括扩大训练规模、支持更多类型的工具调用、进一步优化并行化程度等。随着计算资源的不断增长和算法的持续改进,我们有理由期待这种"边思考边行动"的AI系统能够在更多场景中发挥作用。

说到底,DLLM-Searcher代表了人工智能向更加智能和高效方向发展的一个重要里程碑。它不仅解决了一个具体的技术问题,更重要的是展示了一种全新的思考方式:如何让AI系统更像人类专家那样工作,能够灵活调配注意力和资源,在有限的时间内完成复杂的任务。这种能力对于构建真正实用的AI助手来说至关重要,也为未来的人工智能研究指出了一个有前景的方向。

对于普通用户而言,这项技术的成熟意味着未来的AI助手将能够更快地回答复杂问题,提供更及时的帮助。无论是学生查找学习资料、工作者搜集业务信息,还是普通人寻求生活建议,都能从这种更高效的AI系统中获益。这正是科技进步的真正意义所在:让复杂的技术最终服务于每个人的日常生活。

Q&A

Q1:DLLM-Searcher与传统AI搜索助手有什么区别?

A:传统AI搜索助手必须按顺序工作,先思考再搜索,然后等待结果返回才能继续。DLLM-Searcher可以同时进行思考和搜索,在等待搜索结果的时候继续思考其他问题,就像经验丰富的厨师可以同时处理多个烹饪步骤一样,这使得整体处理速度提升了约15%。

Q2:扩散大语言模型相比普通语言模型有什么优势?

A:普通语言模型像读书一样必须从左到右逐字处理,而扩散大语言模型更像拼图游戏,可以同时在不同位置生成内容。这种并行处理能力让AI可以优先生成搜索指令,然后在等待搜索结果时继续完善思考内容,实现真正的多任务处理。

Q3:P-ReAct技术如何确保AI优先处理搜索任务?

A:P-ReAct使用两个关键技术:首先预先在文本中放置搜索指令的框架标记,就像先画好框框告诉AI在哪里填搜索命令;然后人为提高搜索区域内容的优先级分数,确保AI会优先完成这部分内容。通过这种方式,实现了近100%的搜索指令优先生成成功率。

来源:https://www.163.com/dy/article/KLH4F2A60511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

国内首款“养虾本”来了
科技数码
国内首款“养虾本”来了

2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率

热心网友
04.14
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”
科技数码
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”

AI行业迎来关键转折:从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期,国泰君安国际大幅上调其目标价至245港元 股。多重因素驱动下,迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。 中国AI实现弯道超车:成本优势构筑核心壁垒 全球

热心网友
04.14
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话
AI
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。

热心网友
04.07
Agent接管EDA工作流,不只写脚本!浙大打通真实芯片设计闭环
AI
Agent接管EDA工作流,不只写脚本!浙大打通真实芯片设计闭环

新智元报道编辑:LRST【新智元导读】从「会写Tcl」,到「能真正推进设计优化流程」,大模型正第一次以Agent形态进入真实EDA工具链。大模型正在快速进入工程研发现场。但在 EDA(电子设计自动化

热心网友
04.07
企业微信CLI开源,向AI开放消息、日程、文档等能力
科技数码
企业微信CLI开源,向AI开放消息、日程、文档等能力

新京报贝壳财经讯(记者韦英姿)3月30日,企业微信CLI(命令行界面)开源项目上架GitHub社区,开放消息、日程、文档、智能表、会议、待办、通讯录等七大产品能力,支持主流AI Agent(如Cla

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

追觅宣布进军天文领域 构建“空天地一体化”生态
科技数码
追觅宣布进军天文领域 构建“空天地一体化”生态

“我们的代码,终将写入繁星”:追觅科技成立天文BU,构建从地面到太空的生态闭环 “我们的代码,终将写入繁星。”这句来自追觅科技的宣言,不只是一句诗意的口号,更是一份清晰的战略升级路线图。就在9月10日,这家中国科技企业正式宣告成立天文业务单元(BU),由此完成了一次至关重要的战略跃迁。这标志着其“全

热心网友
04.17
Just Learn
AI
Just Learn

Just Learn是什么 提起用AI为教育赋能,Just Learn这款工具是个绕不开的名字。它由Just Learn公司开发,核心目标非常明确:一手帮教师扩展专业能力,一手为学生打造个性化的学习旅程。说到底,它的价值在于通过AI驱动学习和24 7全天候辅导这两大核心,把教育资源重新“盘活”,让老

热心网友
04.17
Vue 渲染机制中的伪代码拆解:三分钟看懂 Patch 函数的核心逻辑
前端开发
Vue 渲染机制中的伪代码拆解:三分钟看懂 Patch 函数的核心逻辑

Vue 渲染机制深度解析:Patch 函数核心逻辑与优化策略 Vue js 的响应式系统实现了数据驱动视图的核心理念。然而,当数据发生变化时,视图是如何被高效且准确地更新的呢?这背后的核心引擎,正是虚拟 DOM 体系中的 Patch 函数。它并非直接操作真实 DOM,而是通过深度比对新旧虚拟节点(V

热心网友
04.17
JRPG神作《空之轨迹 the 2nd》发售日公布!首批特典送前作
游戏评测
JRPG神作《空之轨迹 the 2nd》发售日公布!首批特典送前作

《空之轨迹SC》完全重制版《空之轨迹 the 2nd》正式定档2026年9月17日,登陆多平台 日本Falcom官方正式公布,经典日式角色扮演游戏《空之轨迹SC》的完全重制版——《空之轨迹 the 2nd》,将于2026年9月17日全球同步发售。本作将登陆任天堂Switch 2、Switch、Pla

热心网友
04.17
AI Art Prompt Generator
AI
AI Art Prompt Generator

AI艺术提示生成器是什么 简单来说,你可以把它理解为一个永不枯竭的创意火花塞。这个基于前沿AI技术的工具,专为破解创作瓶颈而生,无论你是专业画师还是灵感偶尔“罢工”的爱好者,它都能派上用场。它的工作原理并不复杂:依托当前顶级的OpenAI模型,将你的初步想法“催化”成一系列具体、新颖且富有启发性的艺

热心网友
04.17