首页 游戏 软件 资讯 排行榜 专题
首页
AI
RS-Claw工具大幅压缩token提升RAG探索效率

RS-Claw工具大幅压缩token提升RAG探索效率

热心网友
38
转载
2026-05-16

当您需要AI分析一张卫星图像时,面临的挑战是巨大的。这项任务通常需要调用QGIS、GDAL、Google Earth Engine等上百个专业遥感工具。一个核心难题随之而来:是将所有工具的详细说明一次性全部提供给AI,还是只提供一部分?前者极易导致AI“上下文过载”,影响其推理能力;后者则可能让AI因找不到关键工具而无法完成任务,陷入困境。

近期,中南大学的一项研究提出了一个创新的解决方案——RS-Claw框架,巧妙地破解了这一两难局面。其核心思想在于转变思路:不再让AI被动接收一份冗长的工具清单,而是赋予它主动探索和按需发现工具的能力。实验结果表明,该方法成效显著:最高可将上下文token消耗压缩86%,同时在多个基准测试中的任务准确率全面超越了主流的全量加载(Flat)和检索增强生成(RAG)基线方法。

现有方案的局限与瓶颈

在深入探讨RS-Claw之前,我们有必要先理解当前两种主流方案为何在应对大规模工具库时会“卡脖子”。

方案一:全量注册 (Flat)

这种方法最为直接:将所有工具的详细API文档和功能说明直接写入系统提示词,AI可以自由选择。听起来提供了最大灵活性,但弊端明显。

首先,海量的工具描述会迅速挤占宝贵的上下文窗口。这严重压缩了AI进行“多步任务规划”和“中间状态存储”所需的“思考空间”。在处理复杂的遥感分析长链条任务时,AI可能尚未完成步骤规划,上下文就已耗尽。

其次,在遥感等垂直领域,存在大量功能相近的工具(例如计算不同植被指数的工具),它们的描述语义高度相似。当数百个相似描述混杂在一起时,AI容易产生“注意力涣散”,选错工具,导致后续所有步骤全盘皆错。

方案二:检索增强生成 (RAG)

为了节省上下文,另一种思路是采用RAG技术。在任务开始时,通过一个外部检索器根据用户问题的语义,召回最相关的N个工具,再提供给AI。

此方案虽然缓解了“一次性加载”的压力,却存在一个根本性缺陷:检索是“一次性”的。遥感分析任务通常是多步骤的,第一步可能用到A工具,而第三步则需要完全不同的B工具。在任务初始阶段,几乎无法准确预测后续步骤的全部需求。结果便是,那些在后续环节才至关重要的“隐藏工具”,很可能在初始检索阶段就被遗漏,导致任务失败。

图片

RS-Claw的破局之道:主动渐进式探索

那么,RS-Claw是如何实现突破的?其核心理念可概括为八个字:构建技能树,信息渐进披露。这相当于为AI提供一本可逐级展开的“工具百科全书目录”,而非一开始就堆上整部巨著。

第一层:技能摘要层

首先,将上百个工具按其核心功能进行语义聚合,形成几个宏观的技能类别(论文中分为五类:指数计算、参数反演、地物感知、空间分析、统计分析)。在这一层,AI看到的不是具体工具,而是每个类别的一段高度概括的功能描述,例如“本类工具主要用于基于热红外波段的地表温度反演”。

这一步消耗的token极少,但意义重大——它为AI绘制了一张全局“认知地图”,使其能快速定位解决问题的“战略方向”。

第二层:工具目录层

当AI根据任务推理,判断需要进入某个特定技能分支(如“参数反演”)后,它才会发出指令“展开”该分支。此时,该分支下所有工具的简要描述(包括核心功能边界、输入输出格式,不含复杂的参数细节)才会被加载到上下文中。

这使得AI能在一个小而精的候选集中进行精确比对和选择,有效避免了在数百个工具中“大海捞针”导致的注意力分散和决策错误。

第三层:工具文档层

只有当AI最终决定要调用某个具体工具时,这个工具的完整API签名、参数规格、示例代码等最详细(也最占用空间)的信息才会被动态加载进来。

换言之,最“重”的信息,只在被真正需要的最后一刻才呈现。整个机制将“工具探索”内化为AI推理决策流程中的一个主动步骤,工具集合随着推理进程动态、按需地扩展,而非静态、一次性加载。

图片

如图所示,RS-Claw 将“工具探索”转变为 AI 推理决策的内生动作,工具集合随推理进程动态扩展,而非初始静态加载。

实验结果:效率与准确率的双重提升

理论设计精妙,实际性能如何?论文通过严谨的实验给出了有力证明。

实验设计:将探索建模为序列决策

研究团队采用POMDP(部分可观测马尔可夫决策过程)对AI的推理流程进行建模,清晰对比了三种策略:

  • Flat方案:初始上下文包含全量工具描述,可调用工具集合固定为全集。
  • RAG方案:初始上下文是外部检索器返回的固定子集,可调用集合由外部程序预先决定,AI无法改变。
  • RS-Claw(主动探索):初始上下文仅包含技能摘要。AI的动作空间中新增了两类核心“探索动作”:skill(s)(展开某技能分支的工具目录)和doc(t)(加载某工具的完整文档)。关键在于,只有执行了doc(t)后,工具t才正式加入可调用集合。

本质区别在于:前两种方案中,AI可用的工具集合与其推理过程是解耦的、被动的;而在RS-Claw中,可调用工具集随着AI的主动探索决策而动态演化,工具发现本身成为了推理策略不可或缺的一部分。

任务准确率全面领先

在Earth-Bench遥感智能体基准(包含234道复杂题目)上的测试显示,RS-Claw在三个不同规模的模型(GPT-5、DeepSeek-V3.1、Qwen3-32b)和两种任务执行模式(自主规划AP / 指令跟随IF)下,准确率均全面超越了Flat和RAG基线。

一个关键发现是:模型能力相对较弱时,RS-Claw带来的提升更为显著。在Qwen3-32b上,RS-Claw在AP模式下的准确率比Flat方案高出12.45个百分点;而在更强的GPT-5上,优势仍稳定在3个百分点左右。

这说明渐进披露机制的核心价值在于:有效缓解了上下文窗口压力对中等规模模型推理能力的损害。

而RAG方案在所有配置下均落后于RS-Claw,原因正如前文分析:其单次、静态的检索机制无法适应多步任务中动态变化的工具需求。

Token消耗最高压缩86%

在效率提升方面,结果更为惊人。在Qwen3-32b AP模式下,RS-Claw相比Flat方案,将处理每道题的平均输入token从502,119大幅压缩至70,759,压缩率高达约86%;每轮交互的平均token也从30,612降至5,951,降幅约81%。

这不仅仅是降低了API调用成本,更重要的是,它极大地释放了上下文窗口,为AI存储复杂的中间状态、进行深度的多步链式推理提供了充足的“内存空间”。

深入剖析:设计为何行之有效?

为了验证RS-Claw每个设计环节的必要性,论文进行了系统的消融实验。

消融实验一:破坏语义聚合 (Random)

保留三层结构,但将工具随机打散分配到五个技能分支中(破坏按功能聚合的语义逻辑)。结果如何?准确率比完整的RS-Claw下降了9.87个百分点,而token消耗反而增加了43%。这表明,失去了有效的语义导航,AI不得不进行大量盲目的探索尝试,浪费了交互轮次和计算资源。

消融实验二:删除技能摘要层 (2layers)

直接移除第一层,仅保留工具目录和文档层。这相当于将所有工具名称直接写入系统提示词,再按需加载详细文档。结果出现了一个反直觉的现象:这种变体的“工具发现率”反而比RS-Claw更高,但最终的任务准确率却显著更低

这一反直觉结论揭示了关键:工具找得更全,结果却更差。

原因在于,虽然暴露所有工具名提升了可见性,但对于Qwen3-32b这类对上下文长度敏感的模型,大量工具名本身就已构成显著的上下文压力,压缩了其有效的推理空间。这导致多步规划被截断、中间结果混乱,最终损害了任务完成的整体准确性。这证明,技能摘要层是控制上下文初始规模、保护模型核心规划能力的关键设计,不可或缺

扩展性测试:应对工具库持续膨胀

真正的工程挑战在于工具库的持续增长。RS-Claw能否从容应对?

同域工具扩展测试:从完成任务必需的最小工具集开始,每次增加20个功能相近的冗余工具,直至扩展到104个全量工具。

  • Flat方案:准确率持续下降,token消耗近乎线性增长,最终涨幅超过1100%。
  • RS-Claw:准确率基本保持稳定,token消耗仅呈现缓慢增长。

图片

当工具极少(零冗余)时,Flat 方案略胜 RS-Claw。这说明 RS-Claw 的优势并非无条件——它源于工具规模扩张带来的上下文压力。在工具稀少、没有压力时,Flat 方案的“直接可见”优势反而更明显。

跨域工具注入测试:向遥感工具库中混入大量无关的通用API(如用户认证、日历管理、金融查询等),使工具总数从104激增至234。

  • 两种方案的准确率均未剧烈下降(因为跨域工具语义差异大,模型容易过滤)。
  • 但token开销差异巨大:Flat方案的每轮token随工具总数线性增长;而RS-Claw的消耗几乎保持不变。

图片

RS-Claw 的按需加载机制确保了:无关工具的描述永远不会进入上下文。因此,无论工具库如何膨胀,实际消耗几乎不受影响。这是面向真实世界开放、不断增长的工具库场景的核心工程价值。

核心启示:重构AI Agent的工具组织范式

当我们探讨优化AI智能体(Agent)时,思路往往聚焦于提示词工程或模型微调。RS-Claw这篇论文提供了一个极具启发性的新视角:从工具端入手,系统性重构其组织架构与呈现方式

它将“工具获取”从一种被动的、静态的资源接收,转变为AI主动的、按需的探索过程。最关键的是,这套机制无需修改底层大模型,是一种“即插即用”的通用工程方案。

这套“层级化技能树 + 渐进式信息披露”的设计范式,其价值远超遥感领域。任何面临大规模、专业化工具库的垂直应用场景——无论是医疗影像诊断、法律文书分析、金融风险建模还是科学计算仿真——都可以从中获得灵感。其核心思路在于:利用层级结构高效管理工具信息,让AI能够根据任务进展,按需、渐进地加载必要信息,而非一次性全部注入。工具库规模越大,领域越专业,这种设计的优势就越发凸显。

论文链接:RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents (https://arxiv.org/pdf/2605.13391)

来源:https://www.51cto.com/article/843304.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

蒲公英X5 Pro路由器内置OrayClaw实现复杂网络一键异地组网
业界动态
蒲公英X5 Pro路由器内置OrayClaw实现复杂网络一键异地组网

管理路由器这事儿,以前总免不了反复登录后台,在一堆复杂的菜单和参数里摸索。但现在,情况有点不一样了——你只需要动动嘴,网络就能按你的意思来调整。继蒲公英异地组网路由器X1 Pro之后,其兄弟型号X5 Pro也正式迎来了内置的OrayClaw智能助手。 复杂配置“用说的就行”,无需进入路由器后台 回想

热心网友
05.15
百度地图发布AI助手嘟嘟虾 五一出行数据印证用户心智形成
科技数码
百度地图发布AI助手嘟嘟虾 五一出行数据印证用户心智形成

百度地图AI开发者大会推出整车AI座舱平台DuDuClaw,其AI副驾服务人次已突破2亿,日活峰值较春节增长4倍。通过双工语音与个性化语音包提升交互体验,车道级导航等解决方案已搭载超5000万辆车,并与多家车企合作共推智能出行。

热心网友
05.14
FlinkSpec 需求智能化实践 BP Claw 破解 AI 编码输入瓶颈
AI
FlinkSpec 需求智能化实践 BP Claw 破解 AI 编码输入瓶颈

本文是 FlinkSpec 系列的开篇,也是这场工程化变革的序章。BP Claw 所立足的,仅仅是整个链路的起点。而 FlinkSpec 的愿景,是借助 AI 的力量,将实时数仓从需求落地到验收上线的全过程,锻造为一套精密自洽、生生不息的智能工程体系。 在深入探讨之前,不妨先用一张表快速了解 BP

热心网友
05.14
月之暗面注册KimiClaw商标或将推出智能硬件新品
业界动态
月之暗面注册KimiClaw商标或将推出智能硬件新品

月之暗面公司申请注册“KimiClaw”商标,覆盖科学仪器、网站服务等类别,引发业界对其可能涉足硬件领域的猜测。该公司以长文本处理能力闻名,近期传闻正进行高额融资,估值或超200亿美元,显示出构建更庞大AI生态的意图。

热心网友
05.08
临时文件清理:ToClaw释放10GB空间技巧
AI
临时文件清理:ToClaw释放10GB空间技巧

C盘空间告急,系统响应也跟着“卡壳”?这背后,临时文件的无序堆积往往是罪魁祸首。要高效解决,不妨试试这五招:从系统自带的磁盘清理,到手动清空关键目录,再到停服清理更新缓存、启用自动清理,乃至一键批处理脚本,总有一款适合你。 电脑用久了,C盘空间莫名其妙就红了,系统也感觉越来越“黏滞”?别急着怪硬件,

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里钉钉文档全功能解析在线协同办公套件使用指南
AI
阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流

热心网友
05.15
商汤小浣熊智能助手基于自研大语言模型
AI
商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办

热心网友
05.15
MiniMax新一代智能模型矩阵全面解析与应用指南
AI
MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M

热心网友
05.15
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景
web3.0
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景

ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。

热心网友
05.15
智能客服机器人解决方案:AI客服系统提升企业服务效率
AI
智能客服机器人解决方案:AI客服系统提升企业服务效率

在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练

热心网友
05.15