微软与人大联合研究:AI在虚拟计算机中训练实现智能水平突破
这项由微软研究院与中国人民大学高瓴人工智能学院联合主导、清华大学参与的研究,于2025年1月正式发表于arXiv预印本平台(论文编号:arXiv:2601.16206v1 [cs.CL])。研究揭示了一个突破性发现:当大语言模型(LLM)被赋予一个可自由操作的虚拟计算机环境时,其在多项非编程任务上的表现竟能获得显著提升,这为提升AI的通用问题解决能力开辟了新路径。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

回想我们日常使用电脑处理复杂工作的流程:打开浏览器搜索资料、用文本编辑器记录要点、运行计算程序分析数据、最后整合所有内容形成报告。传统的大语言模型则更像一个被动的“思考者”,仅能依赖其内部存储的知识进行文本生成与推理,缺乏主动调用和操作外部工具的能力。这项研究的核心,正是试图赋予AI这种“动手”能力。
研究团队提出了一个创新构想:为AI配备一台“虚拟计算机”。这个被称为“LLM-in-Sandbox”(沙盒中的大语言模型)的环境,是一个完全隔离的安全沙盒。AI在其中可以像真实用户一样自由执行Bash命令、创建与管理文件、安装软件包、编写并运行脚本。实验结果令人惊喜:获得这种“动手能力”后,AI在数学推理、物理化学计算、生物医学分析、长文本理解与复杂指令遵循等领域的表现均大幅提升。更关键的是,这种能力是自发涌现的——模型无需针对这些工具使用进行额外训练,就能主动安装RDKit等专业科学计算包、利用文件系统处理超长文档,或编写Python脚本来满足特定格式要求。
这好比一位足智多谋的军师,原本只能提供战略构想,一旦获得完整的指挥系统和作战工具,便能立刻调度资源、执行战术。数据显示,不同模型在沙盒环境下的性能提升幅度在1%到24%之间,这在追求边际效益的AI前沿领域已属显著进步。
一、沙盒环境的设计哲学:简约而不简单的虚拟世界
想象为孩子准备游戏房间的两种思路:一是为每个游戏预先配置专用房间和全套工具;二是提供一个简洁的基础房间,让孩子根据兴趣自行添置玩具。研究团队选择了后者,这正是其设计理念的精髓——极简主义与通用性。
传统的专用代码智能体(Code Agent)系统类似第一种思路,为特定任务(如软件工程)预装了海量专用工具和依赖库,某些环境配置甚至需要6TB存储空间,难以大规模部署。相比之下,LLM-in-Sandbox如同一个最小化的基础版Ubuntu系统,仅预装Python解释器和基础科学计算库,整个环境镜像仅1.1GB。这相当于给AI一台“裸机”,所有专业软件(如图像处理库PIL、化学信息学工具RDKit)都由AI根据任务需求自行安装。这种设计不仅极大节省了存储与运维成本,更关键的是培养了AI自主探索与解决问题的“自力更生”能力。
该沙盒环境旨在赋予AI三种核心能力,模拟人类使用计算机的基本操作:一是外部资源获取能力(如使用wget/curl下载文件、用pip安装软件包);二是文件系统管理能力(如创建、读取、编辑、删除文件);三是代码执行与验证能力(如编写并运行Python脚本进行计算或验证)。为实现这些,团队设计了三个核心工具函数:“execute_bash”(命令行执行器,可维持会话状态)、“str_replace_editor”(文件内容编辑器)和“submit”(最终答案提交器)。
设计特别强调了“探索的自由度”。系统提示词明确鼓励模型大胆尝试,告知这是一个安全的隔离环境,可以随意实验而无需担心后果。其背后的逻辑深刻而直接:既然计算机是人类创造的最通用工具平台,那么赋予AI对一台完整计算机的访问权限,理论上应能最大程度地解锁其处理各类复杂任务的潜力。
二、AI如何在虚拟世界中“大显身手”
当强大的AI模型首次进入这个虚拟环境,会发生什么?大量实验表明,即使未经专门训练,顶尖模型也能自发学会利用环境工具解决难题。这就像将一个从未接触过电脑但极其聪慧的人置于电脑前,他很快便能通过尝试掌握基本操作逻辑。
通过几个具体案例,可以清晰看到AI的“身手”如何施展。在化学信息学任务中,AI需要根据化合物名称预测其分子性质。它首先尝试用pip安装Python的RDKit库,遭遇版本冲突后并未放弃,而是主动安装Java运行环境,随后下载并调用专业命令行工具OPSIN进行名称转换,最终成功完成预测。
在长文本理解与信息抽取任务中,面对超过10万字符的冗长行业报告,AI展现了类似人类研究员的处理智慧:先用`ls`和`find`命令总览文档结构,再用`grep`搜索关键词定位相关段落,最后编写Python脚本系统性地提取并汇总所需信息,整个过程高效且有条不紊。
指令遵循任务中的一个案例尤为有趣:要求生成三个关于中世纪历史的句子,且每个句子字符数必须完全相同、所用词汇不能重复。这对纯文本生成模型近乎不可能。但在沙盒中,AI编写了字符计数程序、词汇重复检测脚本,并运用组合搜索算法进行穷举与筛选,最终找到了多达363种可行方案。
这些案例展现的不仅是技术能力,更是一种高阶的问题解决思维模式:AI学会了将复杂问题分解为可操作的子步骤、利用外部工具弥补自身内在局限、在遇到障碍时主动寻找替代方案——这一切都是自发的、零样本的。
三、数据揭示的惊人规律:强者愈强,弱者需要引导
大规模跨领域实验揭示了一个有趣且重要的现象:并非所有AI模型都能从沙盒环境中同等受益。测试涵盖了数学、物理、化学、生物医学、长文本、指令遵循六个领域,涉及从顶级商业闭源模型到开源小模型的各类系统。
结果呈现明显的“马太效应”。顶级模型如Claude-Sonnet-4.5-Think和GPT-5在沙盒中如鱼得水,性能提升显著。不同领域的提升幅度各异:数学领域因可编程验证而提升最大;化学领域因能安装专业软件包而表现突出;指令遵循任务因可编写程序满足复杂约束同样改善明显。
然而,能力较弱的模型如Qwen3-4B-Instruct的表现则令人担忧:在沙盒中其性能不升反降。深入的行为日志分析发现,问题根源在于弱模型虽能调用工具,却缺乏有效的探索策略和规划能力,如同没有地图和方向的游客,消耗大量时间进行无效的随机操作,最终导致任务超时或失败。
数据对比发人深省:强模型平均仅需12.6轮交互便能完成任务,工具调用率高达6%-21%;而弱模型需要23.7轮交互(近乎两倍),工具调用率却不足3%。行为模式分析进一步显示,不同任务对沙盒核心能力的需求各异:数学任务最依赖代码执行与计算(43.4%操作涉及计算),化学任务最需获取外部资源(18.4%操作用于安装软件),长文本任务则最依赖文件管理(平均需27.2轮交互处理文档)。
沙盒环境对长文本任务展现出特殊价值:当文档存储在沙盒文件中而非直接全部放入提示词上下文时,所有强模型的表现均有显著提升(平均得分从35.6升至48.9)。这说明沙盒不仅提供了工具,更改变了AI处理信息的根本方式,使其能像人类一样“按需翻阅文档”,而非依赖有限且昂贵的“工作记忆”。
四、让AI学会“折腾”的训练秘籍:LLM-in-Sandbox强化学习
针对弱模型无法有效利用沙盒的问题,研究团队开发了一套创新的训练方法——“LLM-in-Sandbox强化学习”。其巧妙之处在于无需收集昂贵的专用智能体训练数据,而是通过巧妙的任务上下文设计,让AI在动手操作中自然学习。
传统的有监督微调如同发放教科书让学生自学,新方法则像创建一个充满挑战的实践环境,让学生在“做中学”。具体而言,团队使用大量基于上下文学习的普通任务数据,关键设计在于:不直接将完成任务所需的背景材料喂给AI,而是将其作为多个独立文件存储在沙盒中,迫使AI必须主动探索文件系统、读取并整合信息才能作答。
这包含两种核心策略:对于多文档问答任务,将相关文档拆分为多个独立文件(如将一篇论文拆为摘要、引言、方法、结果等部分),训练AI在文件间导航并整合信息;对于单文档任务,则在目录中添加大量无关的干扰文件,训练AI筛选和定位有用信息。训练采用结果导向的稀疏奖励机制,只要最终答案正确即给予正向反馈,从而鼓励AI探索各种可能的解决路径,而非模仿固定的操作序列。
训练效果显著。原本表现糟糕的Qwen3-4B-Instruct模型发生了质变,在沙盒模式下的表现开始全面超越传统纯文本模式,且提升覆盖各个领域。更令人惊喜的是,训练产生了强大的正向迁移效应:即使在不使用沙盒的传统文本模式下,该模型的表现也有所提升。这说明在沙盒中学到的问题分解、系统思考与规划技能,可以迁移至更广泛的场景。
对于原本较强的模型如Qwen3-Coder,此方法同样有效,能进一步优化其工具使用策略,提升效率。行为分析显示,训练后模型在资源获取、文件管理、代码执行三种核心能力上均有提升,且操作序列更简洁高效。另一个意外发现是:AI在传统文本生成模式下也变得更条理,更常使用结构化表达(如标题、分段、项目符号)并进行自我验证(如加入“让我们计算验证一下”等表述)。
五、计算效率的意外惊喜:更省钱、更快速
在分析LLM-in-Sandbox的实际部署成本时,团队发现了出人意料的结果。原本担心让AI在虚拟环境中进行多轮“折腾”会大幅增加计算开销,但详尽的成本-收益分析显示,情况远好于预期。
最大的惊喜来自长文本处理场景。传统方法需要将所有文档内容全部塞入AI的输入上下文,如同要求人一次性背诵整个图书馆的内容,成本极高。沙盒方法则让AI能像研究员一样“按需翻阅”相关文档段落。结果令人震撼:原本需处理10万字符上下文的任务,在沙盒中AI仅需读取约1.3万字符的关键信息,上下文压缩比高达8:1,这意味着计算成本(通常与输入token数相关)降低了近8倍。
在其他任务中,情况有所不同。数学、物理、化学等需要复杂多步推理的任务,确实会因为多轮交互和编程验证而增加一些token消耗,但整体增幅大多控制在50%以内。考虑到性能获得的显著提升(部分任务超过20%),这一成本增加完全在可接受范围内,性价比极高。
执行速度(吞吐量)方面的发现同样有趣。虽然沙盒模式需要多轮交互,看似应该更慢,但实际测试显示其速度表现良好。关键在于,AI生成的大量内容实际来自环境执行的结果(如程序输出、文件内容),这些内容无需AI消耗计算资源逐字生成,可通过快速的“预填充”机制直接返回给模型。数据显示,交互过程中35%-50%的内容来自环境输出,而AI处理这部分内容的时间占比不到4%。最终,不同模型的查询吞吐量表现差异显著:MiniMax的模型甚至比传统模式快2.2倍,其他模型速度基本持平或略有提升。
基础设施开销同样令人满意。与传统代码智能体需要为每个任务准备定制化、臃肿的Docker镜像不同,LLM-in-Sandbox使用统一的轻量级基础镜像。一个容器空闲时仅占约50MB内存,高峰使用也不超过200MB。即使一个服务器节点同时运行512个沙盒容器,总内存占用约100GB,对现代云服务器而言完全可接受。存储优势更为明显:传统系统可能需要维护数TB的不同任务镜像,而LLM-in-Sandbox仅需一个1.1GB的通用镜像即可处理所有任务,极大简化了部署、更新与维护。
六、超越文本的新天地:AI成为真正的数字创造者
LLM-in-Sandbox最激动人心的价值,或许不在于提升已有任务的性能指标,而在于为AI开启了全新的能力边界。传统AI如同一位只能用语言描述世界的评论家,沙盒环境则给了它一双可以操作工具、进行创造的“手”。这种转变带来的不仅是量变,更是质变。
研究团队展示了四个惊艳的创意实现案例,每个都体现了AI从“文本描述者”向“实际创造者”的转变。在智能旅行规划案例中,面对制作东京三日游互动行程的需求,AI在沙盒中创建了一个真正可用的交互式地图网页:它主动安装Leaflet.js地图库,设计包含12个景点的JSON数据结构,为每日行程设置不同颜色标识,最终生成具备点击查看详情和路线显示功能的完整网页应用。
在视觉设计案例中,为制作一场学术会议的海报,AI不再满足于文字描述,而是真正动手创作:根据提供的JSON格式活动信息,使用SVG库设计布局,实现渐变背景和层次化文字排版,最终通过专业工具将矢量设计转换为高质量的PNG图片。虽未达到专业美工水准,但这种从无到有的端到端创造能力已足够惊人。
在视频制作案例中,接到制作一个生日倒计时动画视频的任务后,AI展现了完整的创意实现能力:使用PIL等图像处理库生成360帧动画画面,每帧包含精心设计的装饰元素和动态变化的倒计时数字,再通过FFmpeg视频合成技术将这些画面组合成11秒的MP4视频。这实现了从文字描述到实际视频产品的完整跨越。
最具艺术性的案例是音乐创作。为创作一首“平静的钢琴曲”,AI没有停留在描述旋律特点的层面,而是真正开始作曲:使用MIDI处理库,在A小调框架下创作旋律线与和声进行,通过音频合成技术生成可播放的WAV文件,甚至额外生成了简谱说明文档。虽然音乐的表现力和情感深度尚有局限,但这种从概念到实物的创造过程已具备了艺术创作的雏形。
这些案例的真正价值不在于当前作品的质量,而在于其展现的发展方向与潜力。AI开始具备“元工具使用能力”——不仅能使用预设工具,更能根据需求主动发现、安装和学习新工具。更重要的是,AI展现了类似人类工程师的问题分解与项目规划能力,面对一个开放的复杂任务时会自然将其分解为环境设置、资源获取、代码编写、测试验证等可操作步骤。这种能力的获得完全是自发的、零样本的。
当然,当前仍有明显局限:生成的视频仅是简单动画,音乐缺乏细腻的情感表达力,海报设计缺乏专业的美学水准。但正如团队所指出的,随着基础模型能力的持续提升和沙盒环境的进一步完善,这个方向的发展潜力是巨大的。
七、面向未来的技术愿景:重新定义AI的工作方式
通过LLM-in-Sandbox研究,团队不仅解决了一个具体的技术问题,更为AI技术的未来发展描绘了一幅新的蓝图。其核心理念是:AI不应仅是文本生成工具,而应成为能在数字环境中主动操作、创造价值的智能工作者。
团队提出了一个大胆的愿景:让沙盒环境成为未来AI服务的默认基础设施。如同当今的Web服务标配数据库,未来的AI服务也应标配一个轻量级、安全的计算环境。这种转变将彻底改变AI的使用方式:数据分析任务将获得可验证、可复现的计算支持;长文本处理将通过高效的文件管理获得数量级的效率提升;创意生成任务将产出真正可用的数字作品,而非仅仅是描述。
实现这一愿景需要应对几个关键挑战。首先是规模化部署的工程问题,需要在容器调度、资源分配、安全隔离等方面持续优化。团队开源了Python工具包并提供与vLLM等主流推理框架的集成方案,是迈向工业化应用的重要一步。
其次是AI模型能力的持续提升。虽然顶级模型已能自发利用沙盒,但要让所有规模的模型都具备此能力,需要在训练方法上继续创新。LLM-in-Sandbox强化学习仅是一个开始,未来可能需要将沙盒交互能力直接纳入模型的预训练阶段。
安全性是另一个必须高度重视的挑战。让AI在计算环境中自由操作,必须建立完善的安全防护机制。当前基于Docker容器的隔离提供了基础保护,但面向大规模商用,还需要更细粒度的权限控制、更严格的资源限制(CPU、内存、网络)和更完善的行为监控与审计日志。
此外,这将带来AI应用模式的深刻变革。传统AI应用主要是“问答式”或“生成式”的,而沙盒化的AI将支持“协作式”与“项目式”的工作模式,使AI从“咨询顾问”转变为能够独立执行复杂项目的“执行助手”。
团队还提出了以LLM-in-Sandbox作为智能体(Agent)能力评估新基准的想法。传统评测只关注最终输出的质量,而沙盒环境能记录完整的操作过程,从而可以评估模型的探索策略有效性、工具使用效率、问题解决路径的优劣等深层能力。这种评估方式提供的△值(沙盒模式得分减去传统模式得分)可以成为一个衡量AI智能体潜力的新指标。
最令人兴奋的是“沙盒原生模型”这一概念。团队设想,未来的AI模型应从架构设计之初就考虑与沙盒环境的深度交互,将环境感知、工具调用、状态管理能力作为核心功能而非附加特性。这样的模型不仅能更高效地利用计算环境,还可能发展出人类尚未预见的新型问题解决策略。
从宏观角度看,LLM-in-Sandbox代表了AI发展的一个重要转折点,标志着AI开始从模拟人类的语言能力转向模拟人类的行为能力,从“理解世界”转向“改变世界”。这种转变的深远意义可能需要数年时间才能完全显现,但它无疑为通用人工智能(AGI)的实现开辟了一条全新且务实的路径。
说到底,这项研究最大的价值在于改变了我们对AI能力边界的认知。原本被视为超级聪明“嘴巴”或“大脑”的AI,在获得一双可操作的“手”之后,其潜力远超我们过去的想象。当AI开始在虚拟世界中自主地“折腾”工具、探索环境时,它距离真正理解和操作我们的数字世界又近了一大步。这不仅是单纯的技术进步,更是AI向真正智能体演进道路上的一个重要里程碑。
Q&A
Q1:LLM-in-Sandbox具体是什么,和普通的AI模型有什么区别?
A:LLM-in-Sandbox是为大语言模型提供一个隔离的虚拟计算机环境,使其能像人类操作真实电脑一样执行命令、创建文件、安装软件、运行程序。普通AI模型只能基于内部知识进行文字问答和推理,而具备沙盒能力的AI可以主动“动手操作”来解决问题,例如安装专业软件处理化学分子、编写Python脚本验证数学答案、或使用文件命令处理超长文档,实现了从“思考”到“行动”的跨越。
Q2:这个沙盒环境训练需要什么特殊的数据吗?
A:不需要专门收集的智能体训练数据。研究团队开发的LLM-in-Sandbox强化学习方法,巧妙地使用普通的上下文学习(In-Context Learning)任务数据。其关键设计在于将任务背景材料存储为沙盒中的文件,而非直接提供给AI,从而自然地训练AI学会在环境中探索文件系统、读取并整合信息来解决问题。这种方法简单高效,降低了训练门槛。
Q3:使用LLM-in-Sandbox会不会很费钱很慢?
A:实际上,在许多场景下反而更节省成本且更快。特别是在处理长文档时,传统方法需要将约10万个字符全部输入模型,而沙盒方法允许AI按需读取,仅需处理约1.3万个关键字符,可节省近8倍的上下文计算成本。在速度方面,由于交互中大量内容(如程序输出、文件内容)来自环境快速返回,无需AI逐字生成,部分模型的查询吞吐量甚至比传统模式快2倍以上。对于复杂推理任务,虽然交互轮次增加,但换来了准确性的大幅提升,总体性价比很高。
相关攻略
近日,飞猪联合小红书共同发布《“五一”出行趋势洞察报告》,其中揭示了一个值得业界高度关注的动向:人工智能技术在旅游消费决策场景中的应用渗透率正迎来显著提升。数据显示,今年“五一”假期期间,飞猪平台上的AI智能旅游顾问咨询量,在清明假期的高基数上持续走高,环比增幅高达56%。这一现象清晰地表明,“来自
如果要问哪个群体对生成式AI的抵触情绪最强烈,除了那些真正被AI取代了岗位的人,资深游戏玩家恐怕能排得上号。过去几年里,因为使用AI生成内容而遭到玩家社区抵制的游戏案例层出不穷。玩家对AI的排斥,几乎成了一种本能反应。 为了安抚玩家情绪,游戏开发商与制作人们可谓煞费苦心。《影之刃零》的制作人梁其伟就
Chrome148版本更新后,删除了此前关于“无需将数据发送至谷歌服务器”的明确承诺,改为更笼统的表述。谷歌回应称,此举仅为避免用户混淆,处理方式未变,数据仍在设备端处理。但修改也提示用户需注意“设备端处理”宣传可能存在的边界与例外。
人工智能对全球经济的冲击波,恐怕只会越来越强——从工作岗位的悄然流失,到国民财富从劳动向资本的转移。面对这些巨大的不确定性,美国业界的一些声音开始重新打量一个“老熟人”:对人工智能的算力征税。 是不是觉得似曾相识?没错,早在2017年,远在ChatGPT和Claude Code成为街头巷议的热词之前
近日,智能应用领域再次出现一起引发广泛关注的“AI翻车”事件。有用户在社交媒体上反映,在使用“飞鸭AI记账”App记录一笔为父亲购置衣物的消费时,不仅未获得预期的便捷服务,反而遭遇了AI的失当言论。用户输入消费金额159元后,该记账AI未遵循常规的记账确认流程,竟对衣物款式发表了不当类比,称其“看起
热门专题
热门推荐
初次接触赛车模拟器,或是观看职业赛事的方向盘特写镜头,你一定会被那些密集排列的旋钮与按键所吸引。这绝非单纯的视觉装饰,每一个控件都承载着在毫秒间精准调控车辆动态的关键使命。从牵引力控制到刹车平衡,从引擎图谱到实时数据,这些为极速盲操而生的设计,正是区分业余爱好者与专业车手的重要标志。熟练掌握其功能并
本文介绍了在OKX欧易平台首次购买USDT的完整流程,重点强调了入金、下单、划转三个关键步骤的正确顺序。内容涵盖了从法币充值到币币交易,再到资产划转至资金账户的详细操作与注意事项,旨在帮助新手用户理清逻辑,避免因操作顺序错误导致交易失败或资金滞留,实现顺畅的首次加密货币购买体验。
Dota 2 7 41c版本现已更新,对于希望使用五号位英雄上分的玩家而言,当前环境中有几位英雄的表现尤为突出。根据Yandex战队职业选手Malady在最新视频中的深度解析,发条技师、工程师以及树精卫士,均是此版本中极具上分潜力的强势辅助选择。 除了分享强势辅助英雄推荐,Malady也透露了队伍近
近日,一则关于2026年电竞世界杯可能更换举办地的消息在电竞社区引发热议。据独联体知名爆料人harumi透露,原定于沙特阿拉伯利雅得举行的本届赛事,存在将主办地转移至法国的可能性。这一潜在变动,无疑为这项全球顶级电竞赛事的最终落地增添了新的看点与悬念。 目前,电竞世界杯赛事组委会尚未对此传闻发布任何
本文介绍了在访问OKX(欧易)平台时,如何准确识别其官方网站、帮助中心及处理页面跳转问题。重点分析了官方域名的核心特征与常见后缀,并提供了遇到非官方页面时的安全验证步骤与处理建议,旨在帮助用户有效规避风险,确保资产与信息安全。





