首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
人大与百度AI新突破:智能体实现精细化工具使用成本控制

人大与百度AI新突破:智能体实现精细化工具使用成本控制

热心网友
60
转载
2026-03-12


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由中国人民大学高瓴人工智能学院联合上海财经大学和百度公司共同完成的研究发表于2026年2月,论文编号为arXiv:2602.11541v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当我们谈到AI智能体时,通常会联想到那些能够自主完成复杂任务的"数字助手"。但你有没有想过这样一个问题:如果让AI助手帮你处理工作,但每次使用工具都要花钱,它会不会像个不懂节约的"败家子"一样把你的预算全部花光?

这个看似有趣的问题其实反映了一个非常现实的挑战。随着AI智能体变得越来越强大,它们开始能够调用各种外部工具来完成任务,就像一个万能助手可以使用计算器、搜索引擎、数据库查询工具等等。然而,在现实世界中,这些工具往往不是免费的。比如,获取实时股价信息需要付费,使用高分辨率卫星图像需要花钱,调用专业的金融数据API同样需要成本。

研究团队发现了一个令人担忧的现象:即使明确告诉AI助手有预算限制,它们经常会像没有金钱概念的孩子一样超支。这就好比你给孩子50元去买午餐,结果他回来告诉你花了61元,因为"看到好吃的就忍不住买了"。更有意思的是,那些看起来更"聪明"的AI模型虽然超支情况较少,但往往过于保守,就像一个过分节俭的人,明明有足够预算却不敢花钱,最终无法完成应该完成的任务。

为了解决这个问题,研究团队开发了一套名为"INTENT"的系统,就像给AI助手配了一个精明的财务顾问。这个系统的核心理念是让AI学会"未雨绸缪"——在执行每个动作之前,先预测一下接下来可能需要花多少钱,确保整个任务能在预算范围内顺利完成。

INTENT系统的工作原理可以用一个生动的比喻来理解。假设你要做一道复杂的菜,需要买各种食材,但你的预算有限。一个普通人可能会先买最贵的主要食材,结果发现剩余预算不够买配菜和调料,最终做不成这道菜。而INTENT就像一个经验丰富的主厨,在开始购买之前就会仔细规划:这道菜需要哪些食材,每种食材大概多少钱,按什么顺序购买最合理,哪些食材如果买不到可以用替代品。

具体来说,INTENT系统包含三个核心组件,就像一个专业的财务规划团队。第一个组件是"意图预测器",它的作用是判断AI助手想要执行的每个操作是否真的有必要,以及成功的可能性有多大。这就像一个经验丰富的投资顾问,会评估每笔投资的风险和回报。第二个组件是"条件生成器",它负责模拟在理想情况下任务会如何进行,就像制定一个最优的行动计划。第三个组件是"几何成本校准器",它会考虑到现实中的各种不确定性,对成本进行更保守的估算。

研究团队在StableToolBench这个广泛使用的测试平台上验证了他们的方法。他们为每个任务设定了固定的预算约束,并给不同的工具分配了不同的使用成本,模拟了真实世界中的付费工具环境。实验结果令人惊讶:在没有任何预算控制的情况下,AI助手的超支率高达65%以上,而使用了INTENT系统后,不仅完全避免了超支,任务完成率还显著提升了。

更重要的是,INTENT系统表现出了出色的适应性。当工具价格发生变化时,传统的基于提示词的方法表现极不稳定,就像一个只会按固定菜谱做菜的厨师,一旦食材价格变化就不知所措。而INTENT系统能够灵活调整策略,选择性价比更高的替代方案,表现出了类似于专业采购经理的敏锐度。

研究团队还测试了系统在不同预算水平下的表现。结果显示,INTENT不仅在预算充足时能够充分利用资源实现最佳效果,在预算紧张时也能通过精明的资源配置实现意想不到的好结果。这种能力特别有价值,因为在实际应用中,不同用户的预算限制差别很大。

从技术实现的角度来看,INTENT系统最巧妙的地方在于它不需要重新训练原有的AI模型。这就像给现有的汽车加装一个智能导航系统,而不是重新设计整辆车。这种设计大大降低了应用门槛,使得现有的AI系统都能够快速升级获得预算管理能力。

系统还包含了几个实用的优化机制。比如"轨迹缓存"功能,当AI助手找到一个可行的计划后,会把后续步骤记住,避免重复规划浪费时间。还有"黑名单机制",会自动识别那些成功率很低的工具,避免AI助手反复尝试注定失败的操作,就像一个聪明的购物者会避开那些评价很差的商店。

为了更直观地展示INTENT的工作效果,研究团队提供了一个详细的案例研究。在这个案例中,用户要求AI助手收集谷歌公司的财务数据,包括季度现金流、资产负债表、收入报表等信息,预算限制为50个信用点。

在没有INTENT系统的情况下,AI助手采用了直接的策略:先调用最昂贵的现金流查询工具(花费38个信用点),然后又调用资产负债表工具(花费23个信用点),总共花费61个信用点,超出预算11个信用点,导致任务失败。更糟糕的是,AI助手在最后的回答中还诚实地承认了超支,就像一个不懂事的孩子花光了家长给的零花钱后才意识到问题的严重性。

而在INTENT系统的指导下,AI助手展现了完全不同的行为模式。当它最初也打算使用昂贵的现金流工具时,INTENT系统及时干预,分析了整个任务的成本结构,发现这种策略会导致超支。系统向AI助手反馈了详细的风险分析,包括每个工具的成功概率和预期成本。基于这些信息,AI助手重新调整策略,选择了更便宜但同样有效的替代工具,最终以43个信用点完成了所有必需的数据收集,不仅没有超支,还提供了更全面的财务分析结果。

这个案例生动地展示了INTENT系统的核心价值:它不是简单地阻止AI助手花钱,而是帮助AI助手做出更明智的决策,在预算约束下实现最佳效果。

从更广泛的角度来看,这项研究解决的问题具有重要的现实意义。随着AI智能体在金融分析、法律尽职调查、云服务故障诊断等专业领域的应用越来越广泛,成本控制成为了一个不可忽视的问题。一个无法控制成本的AI助手,无论多么聪明,都难以在商业环境中获得信任和广泛应用。

研究团队的工作还揭示了一个重要的设计原则:在AI系统设计中,我们不能简单地假设AI会自然而然地学会人类的价值观和约束意识。就像教育孩子需要明确的规则和指导一样,AI系统也需要专门的机制来确保它们在复杂的现实环境中做出负责任的决策。

值得注意的是,INTENT系统的设计哲学体现了一种"最小干预"的原则。系统不会改变AI助手的核心能力,而是在关键决策点提供指导和约束。这种设计既保持了AI系统的灵活性和创造性,又确保了行为的可控性和可预测性。

从技术发展的趋势来看,这项研究预示着AI智能体将朝着更加"负责任"的方向发展。未来的AI助手不仅要能够完成复杂任务,还要能够在各种约束条件下做出最优决策,就像一个真正的专业顾问一样。

研究结果还显示了AI系统在动态环境中的适应能力的重要性。现实世界是不断变化的,工具的价格会波动,新的工具会出现,用户的需求和预算也会调整。一个成功的AI系统必须能够快速适应这些变化,而不是僵化地遵循预设的规则。

说到底,这项研究的核心贡献在于为AI智能体赋予了"经济头脑"。就像培养一个孩子不仅要教会他知识和技能,还要教会他如何合理管理资源一样,AI智能体也需要学会在资源约束下做出明智选择的能力。INTENT系统就是这样一个"财务教练",它帮助AI助手从一个只知道完成任务的"工具"成长为一个懂得权衡利弊的"伙伴"。

这种能力的重要性会随着AI技术的普及而日益凸显。当AI助手开始处理涉及真实经济后果的决策时,成本意识和风险管理能力将成为区分优秀AI系统和普通AI系统的关键标准。研究团队的工作为这个重要方向奠定了坚实的基础,也为后续的相关研究开辟了广阔的空间。

Q&A

Q1:INTENT系统是如何帮助AI智能体控制工具使用成本的?

A:INTENT系统就像给AI配了一个精明的财务顾问,它包含三个核心组件:意图预测器负责评估每个操作的必要性和成功概率,条件生成器制定理想情况下的行动计划,几何成本校准器进行保守的成本估算。系统会在AI执行每个付费操作前先预测整个任务的成本,确保在预算范围内完成任务。

Q2:为什么传统的AI智能体容易在使用付费工具时超支?

A:传统AI智能体就像没有金钱概念的孩子,即使被告知有预算限制,也经常会超支。它们通常采用简单的顺序策略,比如先用最贵的工具获取主要信息,结果发现剩余预算不足以完成整个任务。更聪明的AI模型虽然超支较少,但往往过于保守,明明有足够预算却不敢花钱,无法充分完成任务。

Q3:INTENT系统在动态工具市场中表现如何?

A:INTENT系统展现了出色的适应性,就像专业采购经理一样敏锐。当工具价格变化时,传统基于提示词的方法表现极不稳定,而INTENT能够灵活调整策略,选择性价比更高的替代方案。它还能适应新工具的出现和不同的预算水平,在预算充足时充分利用资源,在预算紧张时通过精明配置实现最佳效果。

来源:https://www.163.com/dy/article/KNRBHO4J0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI再强,这些软件仍不可替代
科技数码
AI再强,这些软件仍不可替代

2026年开年,科技圈的情绪有些微妙。AI智能体能自主调用软件完成任务了,AI编程工具能把开发周期压缩到原来的几分之一了,连谷歌搜索的流量都在被AI对话分走。一种声音开始出现:传统软件会被AI替代吗

热心网友
04.01
补上办公短板:用飞书CLI加速双“手”协作
AI
补上办公短板:用飞书CLI加速双“手”协作

智东西作者|江宇编辑|漠影飞书把整套办公能力,直接开放给AI调用了。智东西4月1日报道,今日,飞书正式开源CLI工具lark-cli,覆盖即时通讯、云文档、多维表格、日历、会议、邮箱、任务、知识库等

热心网友
04.01
开源OpenClaw项目:实现全公司级虾集群企业部署方案
AI
开源OpenClaw项目:实现全公司级虾集群企业部署方案

克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenClaw火了之后,一个问题也自然浮现——如果你是一个管理者,想给整个公司人手配一只虾,该怎么办?听上去就是多开几个实例的事,但实际上,想要

热心网友
04.01
AI公司掌握定价权后股价飙升25%,其深层逻辑解析
科技数码
AI公司掌握定价权后股价飙升25%,其深层逻辑解析

“干活的Token,是简单问答的10倍,甚至100倍。”在几天前中关村论坛的一场开源主题圆桌上,当杨植麟把“为什么涨价”的问题直接抛给智谱CEO张鹏时,收到了这样的回答。张鹏选择用模型市场眼下正在发

热心网友
04.01
Claude代码超51万行遭泄露,开源项目安全引深思
科技数码
Claude代码超51万行遭泄露,开源项目安全引深思

3月31日,Anthropic因npm包打包失误,导致Claude Code约51 2万行源代码泄露,含4756个源文件、40余个工具模块及多项未发布功能,就此被动向全球开发者“开源”。该代码由研究

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02