蚂蚁集团4B参数AI助手如何匹敌百亿级大模型

首页

热心网友

转载

2026-05-15

这项由蚂蚁集团Venus团队主导的前沿研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.19859。它为人工智能领域一个长期存在的核心议题——小模型能否胜任复杂任务——提供了一个极具启发性的答案。

蚂蚁集团打造的

研究背景：为什么我们需要一个“迷你”但聪明的研究助手？

当您需要查询一个复杂问题的答案时，例如“某种罕见疾病的最新治疗方案是什么”或“某个历史事件背后的多方证据如何相互印证”，您会怎么做？通常的做法是在搜索引擎上反复查找、点开多个网页、比对不同来源的信息，耗费数小时才能整理出一个相对可靠的结论。这种繁琐的“深度研究”工作，正是蚂蚁集团这支研究团队希望AI能够代为完成的。

他们开发的系统名为DR-Venus，其中DR代表“深度研究”。这个AI助手的独特之处在于，它不仅能回答问题，更能像一个勤奋的研究员，自主地在互联网上搜索信息、打开网页、阅读内容、提炼证据，然后综合多方资料给出完整答案。更关键的是，它完成这些复杂工作所依赖的“大脑”仅有40亿个参数——在AI领域，这属于相当轻量级的范畴，大约相当于一个可以部署在手机或边缘设备上的模型。

为什么这项研究值得关注？因为目前市面上能够执行类似“深度研究”任务的AI系统，要么体量庞大（动辄300亿参数以上），要么依赖闭源数据和复杂的训练流程，普通用户和中小企业很难复现或部署。DR-Venus的研究团队提出了一个核心问题：在数据量有限、模型体积受限的条件下，能否通过优化训练方法，将一个小模型训练得足够强大，使其性能能够与那些“大块头”模型相媲美？

答案是肯定的。这篇论文的核心发现是：通过精心设计训练数据的质量与利用效率，一个仅有40亿参数的模型，不仅能全面超越大多数90亿参数以下的同类竞品，还能在多个关键基准测试上逼近甚至超越参数量是其七八倍的大型系统。

一、深度研究任务究竟是什么？为什么它特别具有挑战性？

普通的AI问答，类似于在一个庞大的知识库中进行检索——用户提问，模型查找，然后给出回答。但“深度研究”则完全不同。以侦探破案作为比喻：普通问答像是查阅档案馆的已有记录，而深度研究则像是侦探亲自进行实地调查，挨家挨户敲门询问，再将零散的线索拼凑成完整的案情。

具体来说，DR-Venus在工作时会经历一个循环流程：收到用户的查询问题后，它首先进行网络搜索，得到一批相关链接和摘要；接着，它会挑选关键链接，实际“点进去”阅读网页的详细内容；阅读后，它会判断是否已掌握足够证据，如果不够，则继续新一轮的搜索和浏览；直到它确信已收集到足够可靠的信息，才会综合所有线索给出最终答案。

这个过程可能需要几十步、甚至两百多步的交互操作，每一步都涉及判断、选择和推理。对于人类侦探而言，这需要经验和直觉；对于AI模型而言，这需要具备稳定的“长线规划”能力——不能在第十步就放弃调查，也不能在第五十步忘记第三步得到的关键证据。研究团队将这种多轮交互的任务形式正式定义为“长时域深度研究”，并将其作为模型训练和性能评估的核心场景。

二、训练这个“小侦探”的第一步：清洗与优化“案件档案”

要训练一名优秀的侦探，最直接的方法是让他学习大量优质的破案案例，从中领悟推理模式和调查技巧。DR-Venus的第一个训练阶段正是遵循这一思路——通过监督微调，让模型从已有的深度研究轨迹中学习。

原始的“案例档案”来自一个名为REDSearcher的公开数据集，共包含10001条深度研究轨迹。然而，这批档案的质量参差不齐，就像侦探学校的图书馆里，有些案例记录清晰规范，有些则混乱不堪，充斥着无效信息和错误结论。

研究团队为此设计了一套四步清洗流程，逐步提升这批档案的质量。

第一步是“格式对齐”。将所有档案统一转换成与实际部署环境完全一致的格式，包括系统提示词的写法、工具调用的参数格式等。这就像把所有案例记录统一翻译成同一种语言和格式，确保模型学到的操作习惯与其实际工作环境完全吻合。

第二步是“去除杂质”。研究团队的实际工作环境仅支持搜索和浏览两种工具。但原始轨迹中有些案例还使用了其他工具，这些对于当前任务而言是“多余的技能”。团队选择的处理方式并非直接丢弃整个案例，而是精准地切除涉及不支持工具的那几步操作，保留案例中其余有效的部分。同时，他们还发现了大量“重复行动”——同样的网页被多次访问，同样的搜索被重复执行。这种冗余主要发生在浏览环节，表明模型在网页阅读阶段容易原地打转。

第三步是“正确性筛查”。即使格式正确、没有冗余，如果一个案例的最终结论是错误的，让模型从中学习只会使其习得错误的推理模式。团队使用了一个更强的大模型作为“督导侦探”来评判每个案例的最终答案是否正确，仅保留答案正确的案例。

第四步是最具创意的“重采样”策略。深度研究的本质是长时域任务，那些只有二三十步就结束的简单案例，训练价值相对有限；而那些需要一百多步、经历大量搜索与浏览、最终综合多条证据才得出答案的复杂案例，才是最接近真实挑战的高价值训练素材。

基于这一判断，团队为不同长度的案例分配了不同的“出现频率”：轨迹步数在50步以下的案例，以正常频率出现；51到100步的案例，出现频率翻倍；100步以上的复杂案例，出现频率提升至五倍。这一策略显著提升了长轨迹的比例——100步以上的复杂案例比例从原来的13.29%大幅提升到了33.21%。

用侦探比喻来说：与其让新侦探反复练习简单的小案子，不如多分配给他那些需要长期追踪、多方取证的复杂悬案，这样才能真正锻炼其长线作战与综合推理的能力。

三、训练这个“小侦探”的第二步：用奖惩机制打磨实战技巧

仅仅依靠“模仿优质案例”是不够的，即使是研读了大量案例的侦探，在实战中仍可能犯错。DR-Venus的第二个训练阶段，正是通过强化学习来纠正这些实战中的问题。

强化学习的基本逻辑类似于训练动物：做对了给予奖励，做错了给予惩罚。但对于深度研究这种长时域任务，传统的强化学习方法面临一个严峻挑战：在一个长达两百步的任务轨迹中，只有最后给出正确答案才能获得奖励，而前面199步的每一个操作都没有任何即时反馈。这就好比训练侦探时，只告诉他“这个案子破了/没破”，却从不指出哪些侦查步骤做得好、哪些步骤走了弯路——学习效率极其低下。

更糟糕的是，对于一个能力相对有限的小模型而言，它自己生成的很多“实战案例”可能根本无法成功破案，整批练习材料里可能找不到一个成功的范例，导致奖励信号完全消失，训练陷入停滞。研究团队将这种现象称为“优势崩塌”。

为了解决这个问题，团队采用了一种名为IGPO的方法。IGPO的核心思想可以用侦探比喻来理解：每当侦探完成一个侦查步骤，不等到最终破案，就立刻评估这一步是否让他“更接近真相”。如果这一步提供的线索让他对正确答案更有把握，就给予即时奖励；如果这一步的线索毫无用处甚至带偏了方向，就给予即时惩罚。

在技术层面，“更接近真相”的程度被定量化为“信息增益”：在某一步行动之前，模型能够正确生成最终答案的概率是多少；在这一步行动之后，这个概率提升了多少。概率提升得越多，说明这一步越有价值，给予的奖励就越高。这样一来，即使整条轨迹最终没有得到正确答案，每一个有效的中间步骤也都能获得反馈，训练信号的密度得以大幅提升。

在此框架基础上，研究团队还额外设计了两个针对深度研究任务特点的改进。

第一个是“浏览感知的信息增益分配”：在搜索任务中，搜索步骤通常只返回简短摘要，提供的信息有限；而浏览步骤则深入读取完整网页，能获得更具体、更可靠的证据。因此，团队将信息增益奖励主要分配给浏览步骤，同时把引导至该浏览页面的搜索步骤也纳入奖励范围，因为正是这些搜索步骤引导模型找到了值得深入阅读的页面。

第二个改进是“逐步骤格式惩罚”：如果模型在某一步的输出格式不规范，就对这一步施加惩罚，而不是因为一步格式错误就惩罚整条轨迹。对于动辄两百步的长任务，这种精准的逐步惩罚比粗糙的全轨迹惩罚要合理得多。

此外，团队还引入了一个名为“IG-Scale”的自适应调节机制，用于平衡“逐步奖励”和“最终答案奖励”之间的比重。当模型能够较稳定地得到正确答案时，“最终答案奖励”信号足够强；但当任务难度很高，模型很少能成功破案时，“最终答案奖励”几乎消失，此时应该让逐步奖励发挥更大的引导作用。这个机制会自动检测两类奖励信号的相对强度，动态调整逐步奖励的缩放比例。

四、实战检验：小模型究竟有多能打？

研究团队在六个不同的深度研究基准测试上对DR-Venus进行了全面评估，这些测试覆盖了英文和中文的深度网络搜索任务、通用AI助手任务，以及多步信息整合任务。

以最受关注的两个测试为例——BrowseComp（英文深度浏览测试）和BrowseComp-ZH（中文版），测试的是模型在面对复杂、难以直接搜索到答案的问题时，能否通过多轮深度浏览找到正确答案。

在BrowseComp上，DR-Venus-4B-SFT（仅经过第一阶段监督微调的版本）得分为26.8，DR-Venus-4B-RL（完整训练版本）得分为29.1。作为对比，同量级（90亿参数以下）的其他竞品模型得分大多在5到24之间。在中文版BrowseComp-ZH上，DR-Venus-4B-RL得分为37.7，同样全面领先所有90亿参数以下的对手。

更令人印象深刻的是与大型模型的比较。OpenResearcher-30B-A3B是一个参数量是DR-Venus七倍多的大模型，但在BrowseComp上只有26.3分，DR-Venus-4B-RL以29.1分超过了它；在另一个测试xBench-DS-2505上，DR-Venus-4B-RL得分为74.7，而拥有300亿参数的Tongyi-DR-30B得分是75.0，两者差距仅有0.3分。

在六个测试中，与仅进行监督微调的版本相比，加入强化学习后的完整版DR-Venus在五个测试上都有明显提升。这证明强化学习阶段对于将一个“会模仿”的模型转变为一个“真正擅长”复杂任务的模型，具有不可替代的作用。

消融实验的结果进一步验证了每个设计选择的价值。去掉重采样策略后，性能显著下降；用传统的轨迹级强化学习方法代替IGPO后，性能不升反降。这组对比清晰地表明，对于长时域深度研究任务，传统的“只看最终结果”的稀疏奖励强化学习不仅效果有限，甚至可能有害；只有像IGPO这样提供逐步密集反馈的方法，才能真正有效地提升小模型在长线任务中的表现。

五、“天花板”究竟有多高？小模型的隐藏潜力

研究团队进行了一项名为Pass@K的有趣分析。普通评估通常只测试模型单次回答的准确率，但Pass@K测试的是：如果允许模型尝试K次，至少有一次成功的概率是多少？这个指标揭示的是模型的“能力上限”，而不仅仅是其“平均发挥水平”。

结果令人惊讶。在BrowseComp上，DR-Venus-4B-SFT的Pass@1（单次尝试成功率）只有26.8，但Pass@16（允许16次尝试）高达61.7；完整训练版的DR-Venus-4B-RL的Pass@1是29.1，Pass@16达到63.7。在中文版BrowseComp-ZH上，这个趋势更加明显：DR-Venus-4B-SFT的Pass@1是35.7，但Pass@16飙升到78.5，大幅超越了拥有300亿参数的Tongyi-DR-30B，甚至超越了Gemini-3-Pro和GPT-5 High这两个顶级商业大模型。

用侦探比喻来解释：一个经验稍浅的侦探如果只被允许提交一次破案报告，其成功率可能不如经验丰富的老侦探；但如果允许他多次尝试、每次从不同角度切入，他最终找到真相的概率其实并不输给老侦探。换句话说，这个小模型的“潜在能力”远比它的“单次表现”要强得多。

这一发现的实际意义在于：通过让模型进行多次尝试并选取最佳答案，即使是一个部署在手机或边缘设备上的小模型，也有可能在关键任务上达到接近甚至超越大型商业系统的水准。这为小模型在资源受限环境下的高性能应用开辟了新的可能性。

六、“浏览”比“搜索”更重要：工具使用习惯的秘密

研究团队还分析了模型在成功完成任务和失败完成任务时，使用“搜索”和“浏览”两种工具的比例差异，得出了一个具有重要实践意义的发现。

在所有六个测试中，存在一个几乎普遍的规律：成功破案的轨迹中，浏览操作（深入阅读完整网页）的比例始终高于失败轨迹。监督微调版的正确轨迹中，浏览操作占所有操作的平均比例为23.71%；而错误轨迹中这个比例只有17.49%。

这个差异揭示了深度研究任务的本质：仅依靠搜索引擎返回的简短摘要往往不足以回答复杂问题，必须真正“深入网页”去读取详细内容，才能获得充分可靠的证据。那些只停留在搜索摘要层面就试图下结论的轨迹，更容易出错。

经过强化学习训练后，这一趋势得到进一步强化。完整版模型的整体浏览比例从17.49%上升到22.46%，正确轨迹的浏览比例从23.71%上升到28.96%。更重要的是，强化学习修正了一个在监督微调版中存在的“反直觉”现象：在某个测试中，监督微调版的错误轨迹浏览比例反而略高于正确轨迹，这说明模型此时尚未真正学会“有效地浏览”，只是漫无目的地多浏览了一些页面。强化学习之后，这个关系被纠正，表明模型已经学会将浏览这个工具用在刀刃上，而非随机使用。

归根结底，这项研究说明了什么？

归根结底，DR-Venus这项研究回答了一个业界广泛关注的问题：AI领域是否只有模型越大才越强，小模型永远只能扮演配角？这项研究给出的答案是：未必如此。

关键不只在于模型有多大，更在于你如何训练它。通过精心清洗数据、高效地重用现有数据、以及设计出能为小模型提供足够密集学习信号的训练方法，一个仅有40亿参数的模型，可以在深度研究这个极具挑战性的任务上击败许多“大块头”模型，甚至在允许多次尝试的条件下超越顶级商业大模型。

对于普通用户而言，这意味着未来可能真的会出现能够部署在个人设备上的AI研究助手——无需上传数据到云端、无需担心隐私泄露、响应速度快、使用成本低，却依然能够胜任复杂的多步骤信息检索与综合研究任务。

研究团队已经将模型权重、训练代码和核心方法全部开源。一个值得深思的问题是：如果数据质量和训练方法如此重要，那么未来是否存在某种极限，让小模型无论怎么优化训练都无法突破？Pass@K实验暗示，目前小模型的表现瓶颈更多在于“一次命中的稳定性”而非“潜在能力上限”，这意味着在模型测试阶段如何更智能地进行采样和答案选择，可能是下一个重要的研究方向。

Q&A

Q1：DR-Venus和普通AI聊天机器人有什么区别？

A：普通AI聊天机器人主要依赖训练时存储的静态知识库来回答问题，知识存在截止日期且无法主动上网查找最新信息。DR-Venus则能够自主进行多轮网络搜索和网页浏览，像一个真正在上网做研究的智能助手，可以处理需要综合多个来源信息才能回答的复杂问题，并且能够获取实时的网络信息。

Q2：IGPO是什么，为什么它比普通强化学习更有效？

A：IGPO是一种专为长时域任务设计的强化学习方法，全称是“基于信息增益的策略优化”。普通强化学习只在任务最终完成时给出稀疏的奖励信号，对于需要两百多步的深度研究任务来说，中间绝大多数步骤都没有任何反馈，学习效率极低。IGPO的改进在于，它在每一步都评估该步骤让模型“更接近正确答案”的程度，从而将稀疏的终点奖励转化为密集的逐步奖励，大幅提升了小模型在长时域、多步骤任务上的学习效果和稳定性。

Q3：为什么深度研究任务中浏览比搜索更重要？

A：搜索引擎返回的通常只是网页的简短摘要，几句话很难包含回答复杂问题所需的充分细节和上下文。浏览则是真正打开网页并阅读完整内容，能获得更具体、更可靠、更全面的证据。DR-Venus的分析发现，成功完成深度研究任务的轨迹中，浏览操作的比例始终显著高于失败轨迹，这充分说明深度阅读与信息整合，而非浅层检索，才是解决复杂信息查询与综合研究问题的关键所在。

来源:https://www.techwalker.com/2026/0501/3185715.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：哈工大与鹏城实验室合作研发AI纠错技术大幅降低视觉幻觉下一篇：浙江大学与阿里巴巴合作研发情感化AI语音助手技术解析