当AI走进实验室,“会思考”到“会动手”之间,究竟还差哪些关键环节?
过去几年,AI for Science(科学智能)的进展主要聚焦在“认知”层面。从蛋白质结构预测、科学文献理解到新材料发现,模型处理的往往只是文本、序列、图结构或数值数据。它们擅长理解知识,却并不直接面对实验室中的物理世界——烧杯、移液器、加热板、离心机,这些才是科研中绕不开的“硬核设备”。
要让AI真正成为高效的科研助手,仅靠“会思考”远远不够,还必须具备“动手操作”的能力。近年来,自动化实验平台在材料合成、化学实验、生物检测等方向确实取得了不错的进展。机械臂、自动化仪器与智能算法的结合,已经能够自动执行不少标准实验流程。然而,这类系统大多是“量身定制”的——针对特定任务设计,依赖固定设备和预设流程。虽然效率较高,但跨任务、跨设备、跨环境的泛化能力几乎为零。
与此同时,通用机器人领域的VLA(视觉-语言-动作)模型在家庭和工业场景中已展现出较强的操作能力。但科学实验室是另一番景象:透明液体、精密仪器、严格流程、复杂的安全约束,以及大量专业动作——倒液、加热、按压、转运、器皿摆放。通用机器人模型如果不经过专门的“补课”,直接投入实验室环境,基本会“水土不服”。
为此,浙江大学与上海人工智能实验室最近联合推出了LabVLA,目标非常明确:将视觉-语言-动作预训练引入科学实验场景,让模型能从自然语言描述的实验流程中,学习跨任务、跨环境的通用操作规律,而不再只是按照固定脚本执行流程。
RoboGenesis:将实验流程转化为可规模化生成的数据
数据从何而来?这是核心问题。
现有的仿真数据普遍缺乏“科学过程约束”,难以表达实验中那些隐性的操作逻辑。而真实数据采集成本高昂、覆盖范围有限、依赖性强,需要专业设备、领域专家和安全环境,根本无法覆盖开放复杂的实验场景。
因此,研究团队开发了数据引擎RoboGenesis,其思路是将科学原理、实验规范、操作逻辑全部编码进可编程仿真环境。目标是让数据产出方式从“依赖人工示教的数据采集”彻底转向“依托科学知识的自动化经验生成”。简而言之,就是搭建一座桥梁:一端是科学知识,另一端是机器人行为,桥上运行的是可执行、可复用、可迁移的具身经验。
具体操作分为三步。
第一步,构建实验空间。系统根据文本描述生成参考图像,然后借助三维重建和物理标注,自动创建可用的实验室场景资产,并批量组合成不同的实验环境。
第二步,生成实验工作流。例如,输入“把液体从烧杯A转移到烧杯B并加热”,系统会将其拆解为多个原子技能,然后在不同机器人平台上实例化执行。同时,场景、相机、光照、杂物、物体位置均会被随机化——目的是提升模型的泛化能力。
第三步,沉淀结构化经验。生成的运动轨迹需要经过一致性验证和执行筛选,以确保质量。然后为每条数据标注任务步骤、物体状态、相机参数、空间关系等信息,最终形成LabEmbodied-Data。也就是说,实验流程不再只是一段“演示视频”,而是可以直接用于训练模型的高质量监督信号。
RoboGenesis的意义不仅在于“制造数据”,它尝试将实验室中原本只能靠经验积累的操作知识,转化为可复用、可扩展、可迁移的结构化资源。
LabVLA:从视觉理解到动作生成的统一模型
在模型设计上,LabVLA采用开源大模型作为视觉语言骨干,并额外添加一个动作专家模块来输出连续控制信号。训练分为两个阶段。
预训练阶段,模型先在多个公开机器人数据源上学习预测离散动作token,让视觉和语言前缀建立对“动作语义”的基础理解。
后训练阶段,模型接入动作专家,在更贴近实验室场景的数据上学习连续动作控制。这里引入了一种称为“知识隔离”的机制——尽可能避免动作学习过程干扰原有的视觉语言能力。简言之,模型既要学会“如何动”,也要尽量不丢失“怎么看、怎么理解”的能力。
在LabUtopia上的表现

测试在团队自建的LabUtopia基准上进行,覆盖六类典型实验室任务:拾取、按钮操作、开门、倒液、加热、运输。结果非常直接——LabVLA在ID(分布内)和OOD(分布外)场景下均取得最佳成绩,平均成功率达到71.1%和70.0%。
更有趣的是,这套能力并不局限于LabVLA这一个模型。研究团队使用LabEmbodied-Data微调其他具身模型,发现同样有显著提升。这说明这一数据资产本身具有良好的通用性和迁移性,不挑模型架构。
真机实验:从仿真到真实世界

仿真结果再好,最终还是要看真实机器人的表现。团队将LabVLA部署到一台真实的Franka机械臂上,并与DreamZero和π0.5两个代表性模型进行了对比。
实验任务包括四类:摇晃液体、倾倒液体、磁力搅拌、漏斗插拔。每类任务收集了50条数据,并对目标物体位置和最终放置区域做了随机扰动,特意“折腾”模型,以检验其在真实环境干扰下的鲁棒性。
测试从两个维度切入:目标位置是否超出训练分布,以及工作空间内是否存在杂乱物体。结果显示,LabVLA在大多数场景下成功率超过70%。与DreamZero基本持平,但在一些要求更高泛化能力的设置中略有优势——例如在“干净且目标位置超出训练分布”的场景下,LabVLA平均成功率达到80%,高于DreamZero。而在最具挑战性的漏斗插拔任务中,LabVLA也取得了最佳表现。
实验同时暴露了一些问题:液体倾倒任务对位置偏移和环境干扰最为敏感;多步骤的器皿操作则对模型的长程规划能力要求更高。总体来看,LabVLA的仿真预训练能力确实能够迁移到真实环境,方向是正确的。
团队目前正致力于将LabVLA部署到浙江大学、复旦大学、晶泰科技等真实科研场景中,重点覆盖合成生物学、药物发现、分子材料等方向。更长远的意义在于,它可以替代人工进入高危或重复性高的实验环节——有毒、易燃、高温高压等场景,正需要机器人替人“冲锋在前”,同时还能提升实验的一致性和可重复性。
面向科学具身的一点思考
如果只看实验指标,LabVLA只是一个具身模型的性能结果。但如果将其置于AI for Science的整体框架中审视,它更像是一次面向科学实验操作的基础设施探索。
第一,它把“实验室操作”这一长期缺乏形式化表达的过程,从经验性流程转变成了可建模、可学习、可评估的具身学习问题。这意味着科学实验操作终于可以被算法系统化地处理。
第二,它建立了一条完整的链路:仿真数据生成→任务结构分解→动作策略学习→真实机器人验证。科学具身智能从单点任务优化,推进到了端到端闭环建模。这种闭环对科学场景尤为关键,因为实际应用往往依赖跨环境、跨设备的连续泛化能力,而非孤立任务上的高分表现。
第三,它也清晰地划出了当前AI在实验室环境中的能力边界:LabVLA目前更像一个能初步执行科学实验的“技术员”,还不是能自主设计实验、根据结果动态调整策略的“科学家”。这个边界划清楚具有重要意义——它为后续真正的AI科学助手留下了明确的演进路径。
真实实验数据稀缺仍然是科学具身智能的核心瓶颈。团队选择开放模型、代码和数据,正是希望降低该方向的研究门槛,让更多研究者参与进来,推动科学具身智能从概念验证走向更广泛的真实应用。
结语:从技术员到科学家,还有很长的路
长期以来,AI for Science更多聚焦于认知层面的突破。而实验作为连接假设与证据的关键环节,仍然高度依赖人工操作。LabVLA探索的不是让AI直接成为科学家,而是赋予它理解实验、执行实验的能力,使其成为科研人员的协作伙伴。
当然,距离真正通用的科学具身智能,挑战还有很多:设备种类繁多、操作规范差异大、真实环境的误差累积和安全约束远比仿真复杂,高质量实验数据的获取成本高昂,不同场景之间的知识和技能迁移能力仍然有限。LabVLA目前更多是在特定任务上的初步尝试,距离一个能自主适应开放实验环境、完成跨学科研究的通用实验智能体,还有相当的距离。
但从知识理解到物理交互,从仿真学习到真实验证,科学具身智能或许正在打开AI for Science的下一扇门。
