Cohere与Poolside揭示大语言模型存在环境盲区问题
这项由Cohere与Poolside联合进行的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.17609,对AI智能体行为机制感兴趣的读者可通过此编号查阅完整论文。

一、一个令人抓狂的现象:地图就在眼前,却还在原地打转
想象这样一个场景:你需要前往一家餐厅,朋友已将完整的导航路线截图发送至你的手机桌面。结果你打开手机,瞥了一眼桌面上的路线图,随即关闭,转而打开地图应用,重新输入地址开始搜索……这种行为是否令人感到费解?
然而,这正是当前最先进的AI智能体在执行任务时的真实表现。Cohere与Poolside的研究团队发现,当研究人员将问题答案直接“放置”在AI智能体的操作环境中时,智能体往往能够“看见”这份答案,却选择性地忽略它,继续沿用自身熟悉的既定方法去解决问题。研究团队将这一现象命名为“环境好奇心”的缺失——本质上,是指智能体缺乏对环境中那些意外出现、却高度相关的信息进行感知和利用的能力。
此项研究横跨了三个不同类型的任务测试平台:专注于考察命令行操作能力的Terminal-Bench、评估软件工程代码修复能力的SWE-Bench Verified,以及测试日常数字任务处理能力的AppWorld。结果在所有场景中均呈现出惊人一致性:智能体发现了答案,但拒绝使用。
最极端的案例出现在AppWorld平台。研究团队在命令行工具的帮助文档中,明确添加了一条命令,并标注该命令“将返回当前任务的完整解决方案”。测试中使用的智能体,有高达97.54%的尝试次数都成功“读取”了这条文档说明,但真正去调用该命令的次数,却仅有0.53%。换言之,在绝大多数情况下,智能体都选择了“视若无睹”。
二、研究团队是如何设计实验的
要理解这项研究,首先需要了解其核心实验设计——“答案注入”。这一设计颇为精妙。
常规评估AI智能体的方法,通常仅关注其最终是否完成任务。但这种评估存在一个盲区:你无法区分“智能体真正在思考环境中的信息”与“它只是在执行一套记忆中的固定操作流程”。这如同考试,难以判断学生是真正理解了题目,还是仅仅背熟了相关题型的解法。
“答案注入”的思路如下:将一份完整的、正确的解题步骤,直接置入智能体的操作环境。随后,重点观察两件事:第一,智能体在操作过程中是否“接触”到这份答案;第二,在接触之后,它是否真正去利用它。这两点分别对应研究团队定义的两个新指标:发现率和交互率。此处的“k”代表在k次尝试中,至少有一次达成目标的概率。
具体的注入方式因平台而异。在Terminal-Bench和SWE-Bench这两个代码类任务平台上,研究团队将答案编写成一个名为“solution.sh”的可执行脚本,直接放置在智能体的工作目录中。在AppWorld这类API调用任务平台上,他们则在命令行工具的帮助文档中,新增了一个名为“solution”的接口,并明确标注其功能。这些被注入的答案均满足两个条件:一是完整性,按其步骤操作必定能完成任务;二是可发现性,通过智能体正常的探索行为即可遇到。
为了排除“是否因文件名过于奇怪而被忽略”等干扰因素,研究团队还测试了不同的文件命名,包括“SOLUTION.md”、“SOLUTION_TO_THIS_SPECIFIC_TASK_READ_THIS_FIRST.md”,甚至是智能体通常会主动查看的“README.md”。结果表明,无论文件名如何变化,交互率均未发生显著改变。智能体对这些答案的忽视,与文件名无关。
三、数据揭示的真相:看见与使用之间存在巨大鸿沟
实验数据清晰地揭示了发现率与交互率之间的那道鸿沟。
在Terminal-Bench上,三个测试模型的发现率介于78.6%到81.2%之间,意味着大约八成的尝试都成功“遇到”了注入的答案。然而,交互率却仅为37.1%到50.3%。这表明,即便发现了答案,超过一半的情况下,智能体依然没有加以利用。
在SWE-Bench上,情况更为悬殊。发现率在53.4%到98.2%之间,而交互率却只有5.9%到17.4%。某些模型几乎每次都能发现答案,却几乎从不使用它。
AppWorld则是最极端的案例。所有测试模型的发现率均超过90%(其中GLM-4.7达到100%),但交互率无一超过6.3%。答案如同贴在玻璃上的便利贴,智能体每次都能看到,但每次都选择绕行。
这道鸿沟也直接体现在最终的任务完成率上。以gpt-oss-120b模型为例,在Terminal-Bench的原始任务上,完成率为44.5%;注入答案之后,提升至55.9%,提升了11.4个百分点——这说明确实有相当一部分智能体学会了利用答案。但在AppWorld上,原始任务完成率为40.5%,注入答案后仅提升至43.1%,仅提升了2.6个百分点,因为几乎没有智能体真正去调用那个解题接口。这两个数字的对比,恰好印证了一个规律:任务完成率的提升幅度,与交互率的高低呈正相关。
四、是什么导致智能体选择“视而不见”
这是整个研究最核心的问题。研究团队围绕测试时的设计选择展开了系统性探究,发现了三个关键影响因素:工具配置、推理计算量和提示词设计。
首先是工具配置,这是影响最显著的因素。研究人员对比了两种工具组合:一种是仅配备基础的bash命令行;另一种是在此基础上,额外加入一个名为“str_replace_editor”的结构化文件编辑工具(这是Anthropic开发的工具,已成为主流编程智能体的标准配置)。结果非常反直觉:加入编辑工具后,任务完成率确实提升了,但交互率却下降了。
这个现象可以用一个生活类比来理解:假设你需要修理一扇门。方案一,你只有一把锤子,你必须先仔细查看门的结构,才知道如何使用锤子;方案二,你拥有一整套专用工具,你会直接按照工具的使用习惯逐步操作,甚至不会先看一眼门的实际情况。工具越丰富、越“顺手”,智能体就越倾向于按照训练时学到的固定操作模式直接行动,而不是先观察当前环境中存在什么。具体数据显示,拥有额外编辑工具时,“在发现答案的前提下最终交互”的条件概率下降了约13.7个百分点。
推理计算量也有显著影响。研究团队测试了同一个gpt-oss-120b模型在低、中、高三种推理强度下的表现。在Terminal-Bench上,高推理强度下的交互率比低推理强度下提升了三倍以上,从11%跃升至37%。更值得注意的是,这个提升并非因为发现率提高,而是因为在发现答案之后“真正反应过来”的概率提高了——从17.65%(低推理)到36.68%(中推理)再到45.69%(高推理)。当然,即便是高推理强度,超过半数的情况下智能体依然会忽视答案,说明计算量的增加也只能部分缓解问题。在AppWorld上,无论推理强度高低,交互率都接近于零,这表明在某些任务类型上,这个问题更为根本。
在提示词设计方面,研究团队测试了多种不同强度的指令。给予智能体一个通用的“先探索环境”指令,可以在三个平台上平均提升任务完成率约2.57个百分点。在Terminal-Bench上进一步细化测试发现,效果最好的提示词是明确要求“在开始主任务之前,必须查看所有发现的文件”。这个提示词让Terminal-Bench上的交互率从23.12%提升到37.12%,任务完成率也同步提升至最高。关键在于:在注入答案的测试版本中表现最佳的提示词,在原始未修改的测试版本中也是表现最好的提示词。也就是说,提升“环境好奇心”与提升真实任务表现,是同一件事情的两个侧面。
还有两个额外因素被证明影响不大。研究团队测试了保留或丢弃推理历史记录对结果的影响,发现对任务完成率几乎没有影响,对交互率只有微弱影响。他们还测试了五种不同的采样温度(0到1.0),结果交互率在全部温度范围内都保持稳定。这说明“缺乏环境好奇心”不是由随机性不足造成的,并非通过调高采样多样性就能解决的问题。
五、智能体不利用答案,是因为认为这是陷阱吗
一个很自然的疑问是:智能体或许认为这个“solution”文件是某种测试陷阱,因此刻意不去触碰它?研究团队设计了两种方法来排除这种可能性。
第一种方法,是使用另一个大语言模型充当“裁判”,对那些“发现了答案但没有交互”的操作轨迹进行逐一分类。裁判被要求将每段轨迹归入五种类别之一:完全没有提及、提到了但没有计划去查看、明确认为是陷阱而主动回避、明知是答案但坚持自己做、有意向要查看但最终没执行。结果显示,在所有模型、所有平台的测试中,“认为是陷阱而主动回避”的比例为零。绝大多数的不交互属于前两类——智能体在推理中根本没有提及答案,或者只是一闪而过提了一下就继续原来的流程了。在SWE-Bench上,超过96%的不交互案例属于“完全没有提及”,说明智能体在处理包含答案的终端输出时,这条信息甚至没有进入其推理过程。
第二种方法,是进行一系列“如果答案更直接给出会怎样”的对照实验。研究团队设计了四种逐渐升级的提示方式:在智能体发现solution.sh的那一刻,注入一条用户消息要求其反思当前观察到的信息;直接把完整解题内容注入到智能体第一步推理的内容里;把完整解题内容放在任务描述的提示词里;明确告诉智能体“你的工作目录里有solution.sh,找到它并执行”。结果表明,随着提示越来越直接,任务完成率也单调递增:基础版55.88%、注入反思提示60.00%、内容注入进第一步推理61.67%、内容注入进任务提示76.25%、直接告知并要求执行81.67%。这证明智能体完全有能力利用这些信息,问题不在于能力,而在于它们没有自发地去注意和使用意外遇到的相关信息。
六、训练数据的范围,悄然决定了智能体的探索能力
既然即便优化了所有测试时的设置,智能体在大多数情况下依然会忽视答案,研究团队开始追问:这个问题是否根植于训练阶段本身?
为此,他们对同一个基础模型command-a-reasoning进行了三种不同的精调训练,分别使用Terminal-Bench类型任务(T-Bench-SFT,覆盖广泛的命令行操作任务)、AppWorld任务(AppWorld-SFT,专注于API调用类数字任务)以及SWE-smith任务(SWE-Bench-SFT,专注于代码编辑和软件工程)。每种训练都包含约2万个训练轮次。
AppWorld的任务类型,实际上是Terminal-Bench任务类型的一个子集——Terminal-Bench中约有5%的任务与AppWorld的核心模式高度相似。因此,对比AppWorld-SFT和T-Bench-SFT这两个模型,可以清晰地看出“训练数据范围窄还是宽”带来的影响。
在AppWorld测试平台上,AppWorld-SFT模型(窄域训练)的单次尝试完成率是44.2%,而T-Bench-SFT模型(广域训练)是34.5%——窄域训练在单次尝试上胜出。但当测试扩展到10次尝试中至少一次成功时,T-Bench-SFT的69.0%超过了AppWorld-SFT的65.8%——广域训练在多次尝试上胜出。交互率方面也呈现出同样格局:10次尝试中的交互率,T-Bench-SFT是41.5%,AppWorld-SFT只有26.9%。
这说明了什么?窄域训练让模型学会了一套高效但单一的解题路径,在第一次尝试时成功率很高,但探索的解法空间很窄,多次尝试时很难找到新的成功路径。广域训练让模型保留了更多样化的解题思路,单次表现不如前者,但多次尝试时能覆盖更广的可能性。用考试来类比:一个只针对某类题型密集刷题的学生,碰到恰好对口的题目会表现很好,但换一种提问方式就容易卡壳;而一个广泛涉猎的学生,碰到任何一道题都有更多应对思路。
这个规律在没有注入答案的原始测试集上同样成立,说明它不是答案注入实验的特殊产物,而是两种训练方式本质差异的体现。
T-Bench-SFT和SWE-Bench-SFT的对比则说明了另一个问题:环境好奇心不能自动跨领域迁移。在Terminal-Bench上,T-Bench-SFT表现更好;在SWE-Bench上,SWE-Bench-SFT表现更好。每个领域内的任务训练只对该领域有帮助,不会溢出到其他领域。
七、当前智能体的工作方式,本质上是一个“走流程”机器
研究团队通过理论分析,试图解释为什么训练过程本身会系统性地抑制环境好奇心。
当前智能体的运作循环可以简单概括为:执行一个操作,然后观察结果,接着思考,再决定下一步操作。问题在于,这里的“观察结果”更多是对信息的机械接收,而非真正的反思性处理。一个真正具有环境好奇心的智能体,应该在观察之后额外做一步:主动判断“这次观察到的内容,和我预期的一样吗?有没有什么意外但重要的信息?”
训练过程之所以强化了前一种模式,原因在于训练数据本身。在监督学习中,所有训练轨迹都是专家在特定任务上正常完成任务的过程,工具输出的内容总是符合预期,不存在意外相关信息。强化学习则进一步奖励那些“高效直接完成任务”的行动序列,而不是“先仔细审视环境然后再行动”的探索性行为。于是,模型学会了按照预期寻找信息、按照已找到的信息行动,而不是注意并利用自己没有主动寻找却意外遇到的信息。
研究团队也尝试了三种在训练层面强化好奇心的方法:对“第一步展现出好奇探索行为”的轨迹进行专项筛选训练;在训练过程中途删除再重新加入相关文件,模拟动态变化的环境;在轨迹中插入“遮蔽对抗轮次”,强迫模型从错误状态中恢复。然而,这三种方法都没有提升交互率。这说明,训练出真正具有环境好奇心的智能体,并非一件能够通过简单调整就能解决的事情。
八、这项研究对AI未来发展意味着什么
研究团队强调,环境好奇心不只是一个学术测量指标,它关乎AI智能体在现实世界中的实用性和可靠性。
一个只会按照训练时学到的固定模式操作的智能体,在真实环境中会非常脆弱。真实世界的任务环境往往与训练时不同,会有各种意外信息和有用线索,一个无法注意并利用这些信息的智能体,必然会错失很多本可成功的机会,或者在面对陌生情况时失去适应能力。
现有的评估指标(任务完成率)无法区分“靠灵活适应成功”和“靠执行固定套路成功”这两种本质不同的成功。研究团队提出的交互率这类过程性指标,可以作为完成率的必要补充,帮助更准确地评估智能体是否真的在“思考”它所处的环境。
研究团队指出了三个值得探索的未来方向。第一是开发更丰富多样的测量手段,不局限于答案注入这一种方式,探索更多维度的环境好奇心评估。第二是探索能够教会智能体“反思性观察”的训练范式,也就是让智能体学会在每次观察之后主动判断是否有意外重要信息。第三是在智能体的运行框架层面设计触发反思的机制,比如在某些条件下自动提示智能体“回顾一下你到目前为止发现的所有内容”。
归根结底,这项研究揭示的问题可以用一句话来概括:当前的AI智能体擅长从环境中取用它期望找到的信息,但不擅长发现和利用它没有预期到的信息。前者让它能完成大量标准任务,后者却是在复杂、开放、不可预测的真实世界中生存的关键能力。两者之间的这道沟壑,目前尚未找到简单的填平方式。
Q&A
Q1:什么是“环境好奇心”,为什么AI智能体缺乏这种能力?
环境好奇心是指智能体能够识别并主动探究意外出现的相关信息的能力。当前AI智能体缺乏这种能力,主要原因在于其训练方式:训练数据都是专家正常完成任务的轨迹,工具反馈总是符合预期,模型因此学会了按预期寻找信息并行动,而不是主动关注意外遇到的有用内容。强化学习进一步奖励高效直接的行动,抑制了探索性的观察反思行为。
Q2:增加推理计算量或改进提示词能解决AI智能体忽视答案的问题吗?
能部分缓解,但无法根本解决。以gpt-oss-120b为例,高推理强度下Terminal-Bench的交互率比低推理强度提升了三倍,从11%增至37%。精心设计要求智能体“查看所有发现文件”的提示词也能提升交互率。但即便将这些因素全部优化,智能体在大多数情况下依然会忽视答案。AppWorld上无论推理强度高低,交互率都接近于零,说明问题不仅仅是推理资源不足。
Q3:针对特定任务做精细化训练,会提升还是降低AI智能体的环境好奇心?
会降低环境好奇心,同时也会压缩探索的多样性。对比窄域训练(AppWorld-SFT)和广域训练(T-Bench-SFT)发现,窄域训练的模型在单次尝试完成率上更高,但在多次尝试(pass@10)和交互率方面都被广域训练模型反超。这说明过于专注某类任务的训练,会让模型学会高效但单一的固定套路,牺牲了在新情况下灵活适应的能力。
相关攻略
想象一下,你委托一位才华横溢却无视规则的助手处理关键任务。结果如何?它确实“完成”了工作,但方式却令人瞠目结舌——并非真正解决问题,而是巧妙地绕过了核心要求。在人工智能领域,这种“为达目的不择手段”的倾向正引发切实的担忧。例如,有AI在代码验证时,擅自修改原始程序以通过测试;有AI在修复软件漏洞时,
想象一下,你第一次玩一款复杂的电子游戏,开局总是磕磕绊绊,免不了失败。但神奇的是,随着一次次重来,你逐渐摸清了门道,掌握了技巧,最终能熟练通关。这种“边玩边学”的能力,是人类智能的鲜明特征。然而,对于当前大多数AI智能体来说,这却是一道难以逾越的鸿沟。 如今的大型语言模型智能体,首次尝试任务时或许表
如果你关注人工智能领域的最新进展,那么“AI技能”这个概念你一定不陌生。它被描述为一种能让AI助手瞬间获得专业能力的“插件”或“扩展包”,使其能够胜任数据分析、代码编写乃至网页开发等复杂工作。这听起来极具吸引力,但实际应用效果是否真如宣传那般理想?一项来自顶尖学术机构的最新研究,为我们揭示了理想与现
这项由加州大学戴维斯分校与弗吉尼亚理工大学联合开展的前沿研究,于2026年4月以预印本形式发布于arXiv平台(论文编号:arXiv:2604 00528v1)。研究团队创新性地提出了名为TAB(Think, Act, Build)的AI智能体框架,首次实现了仅依赖普通RGB-D视频流输入,即可从零
IBM研究院与伦斯勒理工学院的最新合作研究,为人工智能智能体系统的工作流程优化开辟了全新路径。该研究突破了将AI视为单一、僵化执行者的传统范式,转而将其构建为一个能够动态调整、协同合作的智能团队,显著提升了复杂任务的处理能力与适应性。 我们可以将AI智能体系统比作一个专业的后厨团队,其工作流程便是团
热门专题
热门推荐
领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。
英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。
微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4
中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭





