RS-Claw工具大幅压缩token提升RAG探索效率
当您需要AI分析一张卫星图像时,面临的挑战是巨大的。这项任务通常需要调用QGIS、GDAL、Google Earth Engine等上百个专业遥感工具。一个核心难题随之而来:是将所有工具的详细说明一次性全部提供给AI,还是只提供一部分?前者极易导致AI“上下文过载”,影响其推理能力;后者则可能让AI因找不到关键工具而无法完成任务,陷入困境。
近期,中南大学的一项研究提出了一个创新的解决方案——RS-Claw框架,巧妙地破解了这一两难局面。其核心思想在于转变思路:不再让AI被动接收一份冗长的工具清单,而是赋予它主动探索和按需发现工具的能力。实验结果表明,该方法成效显著:最高可将上下文token消耗压缩86%,同时在多个基准测试中的任务准确率全面超越了主流的全量加载(Flat)和检索增强生成(RAG)基线方法。
现有方案的局限与瓶颈
在深入探讨RS-Claw之前,我们有必要先理解当前两种主流方案为何在应对大规模工具库时会“卡脖子”。
方案一:全量注册 (Flat)
这种方法最为直接:将所有工具的详细API文档和功能说明直接写入系统提示词,AI可以自由选择。听起来提供了最大灵活性,但弊端明显。
首先,海量的工具描述会迅速挤占宝贵的上下文窗口。这严重压缩了AI进行“多步任务规划”和“中间状态存储”所需的“思考空间”。在处理复杂的遥感分析长链条任务时,AI可能尚未完成步骤规划,上下文就已耗尽。
其次,在遥感等垂直领域,存在大量功能相近的工具(例如计算不同植被指数的工具),它们的描述语义高度相似。当数百个相似描述混杂在一起时,AI容易产生“注意力涣散”,选错工具,导致后续所有步骤全盘皆错。
方案二:检索增强生成 (RAG)
为了节省上下文,另一种思路是采用RAG技术。在任务开始时,通过一个外部检索器根据用户问题的语义,召回最相关的N个工具,再提供给AI。
此方案虽然缓解了“一次性加载”的压力,却存在一个根本性缺陷:检索是“一次性”的。遥感分析任务通常是多步骤的,第一步可能用到A工具,而第三步则需要完全不同的B工具。在任务初始阶段,几乎无法准确预测后续步骤的全部需求。结果便是,那些在后续环节才至关重要的“隐藏工具”,很可能在初始检索阶段就被遗漏,导致任务失败。

RS-Claw的破局之道:主动渐进式探索
那么,RS-Claw是如何实现突破的?其核心理念可概括为八个字:构建技能树,信息渐进披露。这相当于为AI提供一本可逐级展开的“工具百科全书目录”,而非一开始就堆上整部巨著。
第一层:技能摘要层
首先,将上百个工具按其核心功能进行语义聚合,形成几个宏观的技能类别(论文中分为五类:指数计算、参数反演、地物感知、空间分析、统计分析)。在这一层,AI看到的不是具体工具,而是每个类别的一段高度概括的功能描述,例如“本类工具主要用于基于热红外波段的地表温度反演”。
这一步消耗的token极少,但意义重大——它为AI绘制了一张全局“认知地图”,使其能快速定位解决问题的“战略方向”。
第二层:工具目录层
当AI根据任务推理,判断需要进入某个特定技能分支(如“参数反演”)后,它才会发出指令“展开”该分支。此时,该分支下所有工具的简要描述(包括核心功能边界、输入输出格式,不含复杂的参数细节)才会被加载到上下文中。
这使得AI能在一个小而精的候选集中进行精确比对和选择,有效避免了在数百个工具中“大海捞针”导致的注意力分散和决策错误。
第三层:工具文档层
只有当AI最终决定要调用某个具体工具时,这个工具的完整API签名、参数规格、示例代码等最详细(也最占用空间)的信息才会被动态加载进来。
换言之,最“重”的信息,只在被真正需要的最后一刻才呈现。整个机制将“工具探索”内化为AI推理决策流程中的一个主动步骤,工具集合随着推理进程动态、按需地扩展,而非静态、一次性加载。

如图所示,RS-Claw 将“工具探索”转变为 AI 推理决策的内生动作,工具集合随推理进程动态扩展,而非初始静态加载。
实验结果:效率与准确率的双重提升
理论设计精妙,实际性能如何?论文通过严谨的实验给出了有力证明。
实验设计:将探索建模为序列决策
研究团队采用POMDP(部分可观测马尔可夫决策过程)对AI的推理流程进行建模,清晰对比了三种策略:
- Flat方案:初始上下文包含全量工具描述,可调用工具集合固定为全集。
- RAG方案:初始上下文是外部检索器返回的固定子集,可调用集合由外部程序预先决定,AI无法改变。
- RS-Claw(主动探索):初始上下文仅包含技能摘要。AI的动作空间中新增了两类核心“探索动作”:
skill(s)(展开某技能分支的工具目录)和doc(t)(加载某工具的完整文档)。关键在于,只有执行了doc(t)后,工具t才正式加入可调用集合。
本质区别在于:前两种方案中,AI可用的工具集合与其推理过程是解耦的、被动的;而在RS-Claw中,可调用工具集随着AI的主动探索决策而动态演化,工具发现本身成为了推理策略不可或缺的一部分。
任务准确率全面领先
在Earth-Bench遥感智能体基准(包含234道复杂题目)上的测试显示,RS-Claw在三个不同规模的模型(GPT-5、DeepSeek-V3.1、Qwen3-32b)和两种任务执行模式(自主规划AP / 指令跟随IF)下,准确率均全面超越了Flat和RAG基线。
一个关键发现是:模型能力相对较弱时,RS-Claw带来的提升更为显著。在Qwen3-32b上,RS-Claw在AP模式下的准确率比Flat方案高出12.45个百分点;而在更强的GPT-5上,优势仍稳定在3个百分点左右。
这说明渐进披露机制的核心价值在于:有效缓解了上下文窗口压力对中等规模模型推理能力的损害。
而RAG方案在所有配置下均落后于RS-Claw,原因正如前文分析:其单次、静态的检索机制无法适应多步任务中动态变化的工具需求。
Token消耗最高压缩86%
在效率提升方面,结果更为惊人。在Qwen3-32b AP模式下,RS-Claw相比Flat方案,将处理每道题的平均输入token从502,119大幅压缩至70,759,压缩率高达约86%;每轮交互的平均token也从30,612降至5,951,降幅约81%。
这不仅仅是降低了API调用成本,更重要的是,它极大地释放了上下文窗口,为AI存储复杂的中间状态、进行深度的多步链式推理提供了充足的“内存空间”。
深入剖析:设计为何行之有效?
为了验证RS-Claw每个设计环节的必要性,论文进行了系统的消融实验。
消融实验一:破坏语义聚合 (Random)
保留三层结构,但将工具随机打散分配到五个技能分支中(破坏按功能聚合的语义逻辑)。结果如何?准确率比完整的RS-Claw下降了9.87个百分点,而token消耗反而增加了43%。这表明,失去了有效的语义导航,AI不得不进行大量盲目的探索尝试,浪费了交互轮次和计算资源。
消融实验二:删除技能摘要层 (2layers)
直接移除第一层,仅保留工具目录和文档层。这相当于将所有工具名称直接写入系统提示词,再按需加载详细文档。结果出现了一个反直觉的现象:这种变体的“工具发现率”反而比RS-Claw更高,但最终的任务准确率却显著更低。
这一反直觉结论揭示了关键:工具找得更全,结果却更差。
原因在于,虽然暴露所有工具名提升了可见性,但对于Qwen3-32b这类对上下文长度敏感的模型,大量工具名本身就已构成显著的上下文压力,压缩了其有效的推理空间。这导致多步规划被截断、中间结果混乱,最终损害了任务完成的整体准确性。这证明,技能摘要层是控制上下文初始规模、保护模型核心规划能力的关键设计,不可或缺。
扩展性测试:应对工具库持续膨胀
真正的工程挑战在于工具库的持续增长。RS-Claw能否从容应对?
同域工具扩展测试:从完成任务必需的最小工具集开始,每次增加20个功能相近的冗余工具,直至扩展到104个全量工具。
- Flat方案:准确率持续下降,token消耗近乎线性增长,最终涨幅超过1100%。
- RS-Claw:准确率基本保持稳定,token消耗仅呈现缓慢增长。

当工具极少(零冗余)时,Flat 方案略胜 RS-Claw。这说明 RS-Claw 的优势并非无条件——它源于工具规模扩张带来的上下文压力。在工具稀少、没有压力时,Flat 方案的“直接可见”优势反而更明显。
跨域工具注入测试:向遥感工具库中混入大量无关的通用API(如用户认证、日历管理、金融查询等),使工具总数从104激增至234。
- 两种方案的准确率均未剧烈下降(因为跨域工具语义差异大,模型容易过滤)。
- 但token开销差异巨大:Flat方案的每轮token随工具总数线性增长;而RS-Claw的消耗几乎保持不变。

RS-Claw 的按需加载机制确保了:无关工具的描述永远不会进入上下文。因此,无论工具库如何膨胀,实际消耗几乎不受影响。这是面向真实世界开放、不断增长的工具库场景的核心工程价值。
核心启示:重构AI Agent的工具组织范式
当我们探讨优化AI智能体(Agent)时,思路往往聚焦于提示词工程或模型微调。RS-Claw这篇论文提供了一个极具启发性的新视角:从工具端入手,系统性重构其组织架构与呈现方式。
它将“工具获取”从一种被动的、静态的资源接收,转变为AI主动的、按需的探索过程。最关键的是,这套机制无需修改底层大模型,是一种“即插即用”的通用工程方案。
这套“层级化技能树 + 渐进式信息披露”的设计范式,其价值远超遥感领域。任何面临大规模、专业化工具库的垂直应用场景——无论是医疗影像诊断、法律文书分析、金融风险建模还是科学计算仿真——都可以从中获得灵感。其核心思路在于:利用层级结构高效管理工具信息,让AI能够根据任务进展,按需、渐进地加载必要信息,而非一次性全部注入。工具库规模越大,领域越专业,这种设计的优势就越发凸显。
论文链接:RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents (https://arxiv.org/pdf/2605.13391)
相关攻略
管理路由器这事儿,以前总免不了反复登录后台,在一堆复杂的菜单和参数里摸索。但现在,情况有点不一样了——你只需要动动嘴,网络就能按你的意思来调整。继蒲公英异地组网路由器X1 Pro之后,其兄弟型号X5 Pro也正式迎来了内置的OrayClaw智能助手。 复杂配置“用说的就行”,无需进入路由器后台 回想
百度地图AI开发者大会推出整车AI座舱平台DuDuClaw,其AI副驾服务人次已突破2亿,日活峰值较春节增长4倍。通过双工语音与个性化语音包提升交互体验,车道级导航等解决方案已搭载超5000万辆车,并与多家车企合作共推智能出行。
本文是 FlinkSpec 系列的开篇,也是这场工程化变革的序章。BP Claw 所立足的,仅仅是整个链路的起点。而 FlinkSpec 的愿景,是借助 AI 的力量,将实时数仓从需求落地到验收上线的全过程,锻造为一套精密自洽、生生不息的智能工程体系。 在深入探讨之前,不妨先用一张表快速了解 BP
月之暗面公司申请注册“KimiClaw”商标,覆盖科学仪器、网站服务等类别,引发业界对其可能涉足硬件领域的猜测。该公司以长文本处理能力闻名,近期传闻正进行高额融资,估值或超200亿美元,显示出构建更庞大AI生态的意图。
C盘空间告急,系统响应也跟着“卡壳”?这背后,临时文件的无序堆积往往是罪魁祸首。要高效解决,不妨试试这五招:从系统自带的磁盘清理,到手动清空关键目录,再到停服清理更新缓存、启用自动清理,乃至一键批处理脚本,总有一款适合你。 电脑用久了,C盘空间莫名其妙就红了,系统也感觉越来越“黏滞”?别急着怪硬件,
热门专题
热门推荐
钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流
在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办
在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M
ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。
在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练





