首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
纽约大学新研究:AI如何学会“看钱办事”提升智能

纽约大学新研究:AI如何学会“看钱办事”提升智能

热心网友
21
转载
2026-02-24


这项由纽约大学研究团队进行的开创性研究发表于2026年2月的机器学习领域预印本arXiv:2602.16699v2,为我们揭示了一个有趣而重要的问题:当AI智能体面临复杂任务时,它们是否知道什么时候该继续探索、什么时候该果断行动?

在现实世界中,我们每天都在做这样的权衡。当你在网上购物时,你会花多少时间比价?是浏览三家店铺就下单,还是要看遍全网才满意?程序员在写代码时,是直接提交代码还是先写测试?这些看似简单的决策背后,其实都隐藏着复杂的成本效益计算。

随着大语言模型(LLM)智能体越来越多地应用到需要与环境互动的复杂任务中,一个关键问题浮出水面:这些AI系统能否像人类一样,在探索新信息的收益与行动成本之间找到平衡?纽约大学的研究团队通过"校准-然后-行动"(Calibrate-Then-Act,简称CTA)框架,首次系统性地解决了这个问题。

这项研究的核心创新在于,它让AI智能体明确地推理成本与不确定性之间的权衡关系。就像一个经验丰富的医生,既要考虑进一步检查能带来的诊断价值,也要权衡检查的时间成本和患者的经济负担。研究团队设计了一套方法,让AI系统能够显性地获得关于环境状态的先验知识,并基于这些信息做出更优的探索决策。

研究团队在三个不同复杂度的任务上验证了这一方法:从经典的"潘多拉盒子"问题,到实际的知识问答和编程任务。结果显示,配备了CTA框架的智能体不仅在单次表现上超越了基线方法,更重要的是展现出了适应不同成本环境的能力,这种灵活性正是现实应用中至关重要的特质。

一、从"潘多拉盒子"看智能体的选择困境

要理解这项研究的核心思想,我们可以从一个经典的决策问题开始:潘多拉盒子问题。设想你面前有三个盒子,其中只有一个装着奖品。你知道每个盒子装有奖品的概率分别是4%、68%和28%。现在你有两个选择:直接猜一个盒子,或者花费时间打开盒子验证,但每次验证都会让最终奖品的价值打折扣。

在这个场景中,最优策略并不是总是验证或总是直接猜测。如果打折系数很高(比如每次验证后奖品价值减少80%),那么即使成功概率只有68%,直接选择最有可能的盒子可能更明智。反之,如果打折程度较小,那么通过验证获得确定信息就更有价值。

传统的AI智能体在面对这类问题时往往表现僵化。研究团队发现,没有明确先验信息的智能体几乎无法找到最优策略,正确匹配率仅为11-23%。而配备了CTA框架的智能体则能够达到94%的正确匹配率,几乎完美地复现了理论最优策略。

这个看似简单的例子实际上揭示了一个深层问题:智能体需要同时处理两个维度的信息——对环境状态的不确定性估计和对行动成本的准确建模。CTA框架的关键创新就是将这两个维度分离,让智能体能够显性地推理它们之间的关系。

二、知识问答中的检索策略:何时求助外部信息

在知识问答任务中,这种成本感知的重要性变得更加明显。当AI系统面对一个问题时,它可以选择直接基于内部知识回答,也可以先检索相关信息再作答。检索虽然能提高准确性,但会增加延迟和API调用成本。

研究团队设计的实验场景就像是一个图书管理员的工作。当有读者询问某个问题时,管理员需要判断:是基于自己的记忆直接回答,还是去查阅参考资料?这个决定取决于两个关键因素:对自己记忆准确性的信心,以及查阅资料的时间成本。

在PopQA数据集上的实验结果很有说服力。总是直接回答的策略准确率只有22.6%,总是检索的策略准确率虽然提升到57.8%,但由于时间折扣,最终奖励反而更低。而CTA方法训练的智能体学会了根据自身置信度和检索成本动态决策,在65.3%的情况下选择检索,最终获得了最高的折扣奖励。

更令人印象深刻的是智能体决策模式的可视化结果。研究团队发现,配备CTA的智能体展现出清晰的决策边界:当对答案高度确信且检索成本较高时,它会直接回答;当不确定性较大且检索成本可接受时,它会选择先检索。这种模式与人类专家的决策行为高度一致。

三、编程任务中的测试与执行权衡

在编程任务中,成本感知探索的重要性达到了新的高度。程序员在编写代码时经常面临这样的选择:是直接运行代码看结果,还是先写单元测试验证假设?每种选择都有其代价——直接执行可能浪费计算资源,而编写测试则需要额外时间。

研究团队构建了一个名为FileReading的数据集来模拟这种场景。在这个任务中,智能体需要编写代码来处理CSV文件,但文件的具体格式(分隔符、引号字符、是否跳过标题行等)是未知的。智能体可以通过单元测试来验证格式假设,也可以直接尝试运行代码。

这个场景的精妙之处在于,它完美地模拟了现实编程中的不确定性。文件名提供了一些线索——比如"sales_eu.csv"可能暗示使用欧洲常见的分号分隔符,而"data.tsv"则提示制表符分隔。但这些线索并不绝对可靠,程序员需要在验证成本和错误风险之间找到平衡。

实验设置了不同的成本比率场景。当代码执行成本是单元测试成本的4倍时,明智的策略应该是多做测试;而当两者成本相近时,直接尝试代码可能更高效。结果显示,传统的强化学习方法训练的智能体表现出完全静态的行为模式——无论成本如何变化,都采用相同的"先测试再编码"策略,适应性为零。

相比之下,CTA训练的智能体展现出了令人赞叹的适应能力。在高代码执行成本的环境下,它们表现得相当保守,倾向于通过测试验证假设。而在成本较低的环境下,它们会更积极地尝试直接执行代码。这种动态适应正是人类程序员的典型行为模式。

四、技术深度:先验估计的艺术

CTA框架的技术核心在于如何准确估计环境状态的先验分布。这听起来很抽象,但其实就像是给智能体配备一个"经验雷达",让它能够在行动前就对环境有基本的判断。

在知识问答任务中,这个"经验雷达"表现为置信度校准。研究团队使用了一种叫做等距回归的技术来校准智能体的自我评估能力。简单来说,就是让智能体学会更准确地评估"我有多确定这个答案是对的"。原始的大语言模型在这方面表现糟糕,预测置信度与实际准确率的误差高达61.8%。经过校准后,这个误差降到了仅仅2.9%。

在编程任务中,先验估计则通过一个轻量级的BERT模型实现。这个模型的任务是根据文件名预测格式参数的概率分布。它只有440万个参数,训练后能够根据文件名中的线索预测分隔符、引号字符等格式参数,平均准确率达到67%。虽然不是完美预测,但足以为智能体的决策提供有价值的参考。

五、强化学习的新视角:显性推理胜过隐性学习

这项研究还揭示了一个重要的机器学习原理:在复杂决策问题中,显性的推理往往比端到端的隐性学习更有效。传统的强化学习方法试图让智能体从训练数据中隐性地学会成本感知,但结果表明这种方法很容易陷入局部最优。

在编程任务的实验中,这个现象表现得特别明显。传统强化学习训练的智能体虽然在训练环境中表现不错,但面对新的成本结构时完全无法适应。它们学到的是一套固化的行为模式,而不是灵活的决策原则。

CTA方法的优势在于它将不确定性估计和决策制定分离开来。智能体不需要从头学习"什么时候该谨慎,什么时候该冒险",而是基于明确的先验信息进行推理。这种设计哲学让智能体的行为更加透明和可控。

更有趣的是,CTA方法可以与强化学习结合使用。CTA-RL(结合了强化学习的CTA方法)在所有测试环境中都实现了帕累托最优,即在任何给定的成本结构下都能找到最佳的探索-利用平衡点。这说明显性推理和隐性学习并非互斥,而是可以相互补充的。

六、现实应用的广阔前景

这项研究的价值远远超出了学术探讨的范畴。在当今AI系统越来越多地部署在现实环境中的背景下,成本感知探索能力将成为区分优秀和平庸AI系统的关键指标。

在医疗诊断领域,这种能力意味着AI系统能够根据症状的严重程度和检查成本智能地建议诊断方案。对于常见的轻症,系统可能建议保守治疗;而对于可能的重症,即使检查费用较高也会建议进一步诊断。

在自动驾驶领域,成本感知探索体现为对感知精度和计算资源的动态分配。在高速公路的简单场景中,系统可以降低感知频率以节省电力;而在复杂的城市路口,即使消耗更多资源也要确保感知的准确性。

在金融交易中,这种能力让AI系统能够根据市场波动性和交易成本动态调整策略频率。在稳定市场中保持观望,在关键时刻果断出手。

在教育个性化方面,AI导师可以根据学生的掌握程度和练习成本智能安排学习计划。对于已经掌握较好的内容减少练习时间,对于薄弱环节增加针对性训练。

七、研究局限与未来展望

尽管CTA框架展现出了令人鼓舞的效果,但研究团队也诚实地指出了当前方法的局限性。最主要的限制在于先验信息的获取。在实际应用中,如何准确估计环境状态的先验分布仍然是一个挑战。

在知识问答任务中,置信度校准需要大量标注数据,这在某些领域可能难以获得。在编程任务中,文件名到格式的映射关系可能因领域而异,需要针对性的模型训练。

另一个挑战是计算效率。虽然CTA方法在决策质量上表现出色,但显性推理过程增加了计算开销。如何在保持决策质量的同时提高推理效率,将是未来研究的重要方向。

研究团队提出了几个有前景的研究方向。首先是自适应先验学习,让智能体能够在交互过程中动态更新对环境的认知。其次是多任务先验迁移,让在一个任务中学到的成本感知能力能够迁移到相关任务中。

还有一个有趣的方向是人机协作中的成本感知。当AI系统与人类用户协作时,如何平衡系统的计算成本和用户的时间成本?这需要更复杂的多目标优化框架。

八、更广泛的科学意义

从更宏观的角度看,这项研究触及了人工智能领域的一个核心哲学问题:智能系统应该如何在不完整信息下做出决策?这个问题不仅关乎技术实现,更关乎我们对智能本质的理解。

人类智能的一个重要特征就是在资源约束下的适应性决策。我们不会为了做每一个决定都收集完美的信息,而是基于经验和直觉在"足够好"的信息基础上行动。CTA框架某种程度上让AI系统具备了这种能力。

这种能力的重要性还体现在AI安全性上。一个不懂得权衡成本的AI系统可能会做出看似合理但实际有害的决策——比如为了提高1%的准确率而消耗10倍的计算资源,或者为了避免微小的错误风险而错过重要的行动时机。

从认知科学的角度看,这项研究也为理解人类决策提供了新的视角。我们的大脑是如何在潜意识中进行这种成本效益分析的?AI系统的显性推理过程是否能帮助我们更好地理解人类的隐性认知机制?

说到底,这项研究展现的不仅仅是技术进步,更是人工智能向真正智能迈进的重要一步。就像人类从会使用工具进化到会选择何时使用何种工具一样,AI系统也正在从单纯执行任务进化到智能地规划执行策略。纽约大学团队的这项工作,为我们描绘了这种进化的可能路径,也为构建更智能、更实用的AI系统提供了宝贵的理论基础和实践指导。

当我们站在AI技术快速发展的当下回望这项研究时,或许会发现它不仅解决了智能体的成本感知问题,更重要的是为AI系统注入了一种近似人类的"智慧"——知道什么时候该深入探索,什么时候该果断行动。这种智慧,正是我们构建真正有用、可信赖AI系统的关键所在。

Q&A

Q1:Calibrate-Then-Act框架是什么?

A:Calibrate-Then-Act(CTA)是纽约大学开发的一种让AI智能体学会权衡探索成本与收益的方法。它让AI系统先获得环境状态的先验知识(校准),然后基于这些信息和成本考量做出最优决策(行动),就像让AI学会"看钱办事"一样。

Q2:CTA框架在实际应用中有什么优势?

A:CTA框架最大的优势是让AI系统具备了适应性决策能力。比如在编程任务中,当代码执行成本高时,AI会更多地先做测试验证;成本低时则更倾向于直接尝试。这种灵活性让AI在不同环境下都能找到最优策略,而传统方法往往只会采用固定策略。

Q3:这项研究对未来AI发展有什么意义?

A:这项研究让AI系统从单纯执行任务进化到智能规划执行策略,具备了类似人类的成本效益权衡能力。未来在医疗诊断、自动驾驶、金融交易等领域,AI系统将能够根据具体情况动态调整策略,既提高效率又控制成本,这是构建真正智能、可信赖AI系统的关键一步。

来源:https://www.163.com/dy/article/KMIDNATV0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2026年信息学奥赛C++编程机构测评哪家更适合孩子
业界动态
2026年信息学奥赛C++编程机构测评哪家更适合孩子

信息学竞赛是升学重要路径,选择专业C++机构至关重要。优编程体系完整、获奖率高;学而思课程标准化,利于打基础;极客晨星线上灵活,便于入门;有道小图灵算法专业,适合专项提升;小码王线上线下结合,体验均衡。家长应依据孩子基础、目标与习惯,选择最契合的机构。

热心网友
05.22
2026年十大少儿编程机构排名与选择避坑指南
业界动态
2026年十大少儿编程机构排名与选择避坑指南

选择少儿编程机构需结合孩子年龄、兴趣与家庭规划。不同机构各有侧重:如编程猫趣味启蒙,核桃编程性价比高,西瓜创客重实践,童程童美覆盖全年龄段,傲梦提供一对一辅导。家长应关注思维培养,细查退费政策,根据孩子认知阶段选择,并通过试听课做出合适决定。

热心网友
05.22
手机氛围编程时代开启沉浸式开发体验
AI资讯
手机氛围编程时代开启沉浸式开发体验

随着AI编程工具的发展,普通人可通过自然语言描述创建应用或小部件,满足个性化需求。谷歌和苹果等公司正降低开发门槛,让用户能快速生成个人应用或自动化指令。这些功能虽非革命性,却使手机更贴合个人习惯,标志着移动端个性化进入新阶段。

热心网友
05.22
Vibe Coding是什么如何使用自然语言驱动编程
AI资讯
Vibe Coding是什么如何使用自然语言驱动编程

在当今软件开发领域,一种名为“Vibe coding”(氛围编码)的创新范式正迅速崛起。它并非旨在颠覆传统的编程思维,而是致力于消除创意构思与最终实现之间的技术隔阂。简而言之,这是一种基于自然语言描述和直觉驱动的开发模式。其核心优势在于,无论是专业开发者还是业务人员,都能通过向大型语言模型清晰阐述业

热心网友
05.22
豆包少儿编程陪练机器人教学话术设计指南
AI资讯
豆包少儿编程陪练机器人教学话术设计指南

设计少儿编程陪练话术需符合儿童认知特点。采用角色化表达拉近距离,将抽象指令转化为游戏化任务。设置三层应答机制应对不同操作状态,及时给予具体正向反馈强化信心。预留自然退出接口,将中断定义为暂停而非失败,注重情绪安抚与成就感维持。

热心网友
05.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位
web3.0
比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位

现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急

热心网友
05.23
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析
web3.0
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析

目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显

热心网友
05.23
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破
web3.0
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破

近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进

热心网友
05.23
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续
web3.0
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续

DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么

热心网友
05.23
欧易OKX官方APP下载指南 安全交易入口与安装教程
web3.0
欧易OKX官方APP下载指南 安全交易入口与安装教程

如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,

热心网友
05.23