LabVLA：浙大与上海AI Lab探索科学具身智能_AI热点日报

LabVLA：浙大与上海AI Lab探索科学具身智能

类型：热点整理2026-06-29

当AI走进实验室，“会思考”到“会动手”之间，究竟还差哪些关键环节？过去几年，AI for Science（科学智能）的进展主要聚焦在“认知”层面。从蛋白质结构预测、科学文献理解到新材料发现，模型处理的往往只是文本、序列、图结构或数值数据。它们擅长理解知识，却并不直接面对实验室中的物理世界——烧杯、

当AI走进实验室，“会思考”到“会动手”之间，究竟还差哪些关键环节？

过去几年，AI for Science（科学智能）的进展主要聚焦在“认知”层面。从蛋白质结构预测、科学文献理解到新材料发现，模型处理的往往只是文本、序列、图结构或数值数据。它们擅长理解知识，却并不直接面对实验室中的物理世界——烧杯、移液器、加热板、离心机，这些才是科研中绕不开的“硬核设备”。

要让AI真正成为高效的科研助手，仅靠“会思考”远远不够，还必须具备“动手操作”的能力。近年来，自动化实验平台在材料合成、化学实验、生物检测等方向确实取得了不错的进展。机械臂、自动化仪器与智能算法的结合，已经能够自动执行不少标准实验流程。然而，这类系统大多是“量身定制”的——针对特定任务设计，依赖固定设备和预设流程。虽然效率较高，但跨任务、跨设备、跨环境的泛化能力几乎为零。

与此同时，通用机器人领域的VLA（视觉-语言-动作）模型在家庭和工业场景中已展现出较强的操作能力。但科学实验室是另一番景象：透明液体、精密仪器、严格流程、复杂的安全约束，以及大量专业动作——倒液、加热、按压、转运、器皿摆放。通用机器人模型如果不经过专门的“补课”，直接投入实验室环境，基本会“水土不服”。

为此，浙江大学与上海人工智能实验室最近联合推出了LabVLA，目标非常明确：将视觉-语言-动作预训练引入科学实验场景，让模型能从自然语言描述的实验流程中，学习跨任务、跨环境的通用操作规律，而不再只是按照固定脚本执行流程。

RoboGenesis：将实验流程转化为可规模化生成的数据

数据从何而来？这是核心问题。

现有的仿真数据普遍缺乏“科学过程约束”，难以表达实验中那些隐性的操作逻辑。而真实数据采集成本高昂、覆盖范围有限、依赖性强，需要专业设备、领域专家和安全环境，根本无法覆盖开放复杂的实验场景。

因此，研究团队开发了数据引擎RoboGenesis，其思路是将科学原理、实验规范、操作逻辑全部编码进可编程仿真环境。目标是让数据产出方式从“依赖人工示教的数据采集”彻底转向“依托科学知识的自动化经验生成”。简而言之，就是搭建一座桥梁：一端是科学知识，另一端是机器人行为，桥上运行的是可执行、可复用、可迁移的具身经验。

具体操作分为三步。

第一步，构建实验空间。系统根据文本描述生成参考图像，然后借助三维重建和物理标注，自动创建可用的实验室场景资产，并批量组合成不同的实验环境。

第二步，生成实验工作流。例如，输入“把液体从烧杯A转移到烧杯B并加热”，系统会将其拆解为多个原子技能，然后在不同机器人平台上实例化执行。同时，场景、相机、光照、杂物、物体位置均会被随机化——目的是提升模型的泛化能力。

第三步，沉淀结构化经验。生成的运动轨迹需要经过一致性验证和执行筛选，以确保质量。然后为每条数据标注任务步骤、物体状态、相机参数、空间关系等信息，最终形成LabEmbodied-Data。也就是说，实验流程不再只是一段“演示视频”，而是可以直接用于训练模型的高质量监督信号。

RoboGenesis的意义不仅在于“制造数据”，它尝试将实验室中原本只能靠经验积累的操作知识，转化为可复用、可扩展、可迁移的结构化资源。

LabVLA：从视觉理解到动作生成的统一模型

在模型设计上，LabVLA采用开源大模型作为视觉语言骨干，并额外添加一个动作专家模块来输出连续控制信号。训练分为两个阶段。

预训练阶段，模型先在多个公开机器人数据源上学习预测离散动作token，让视觉和语言前缀建立对“动作语义”的基础理解。

后训练阶段，模型接入动作专家，在更贴近实验室场景的数据上学习连续动作控制。这里引入了一种称为“知识隔离”的机制——尽可能避免动作学习过程干扰原有的视觉语言能力。简言之，模型既要学会“如何动”，也要尽量不丢失“怎么看、怎么理解”的能力。

在LabUtopia上的表现

测试在团队自建的LabUtopia基准上进行，覆盖六类典型实验室任务：拾取、按钮操作、开门、倒液、加热、运输。结果非常直接——LabVLA在ID（分布内）和OOD（分布外）场景下均取得最佳成绩，平均成功率达到71.1%和70.0%。

更有趣的是，这套能力并不局限于LabVLA这一个模型。研究团队使用LabEmbodied-Data微调其他具身模型，发现同样有显著提升。这说明这一数据资产本身具有良好的通用性和迁移性，不挑模型架构。

真机实验：从仿真到真实世界

仿真结果再好，最终还是要看真实机器人的表现。团队将LabVLA部署到一台真实的Franka机械臂上，并与DreamZero和π0.5两个代表性模型进行了对比。

实验任务包括四类：摇晃液体、倾倒液体、磁力搅拌、漏斗插拔。每类任务收集了50条数据，并对目标物体位置和最终放置区域做了随机扰动，特意“折腾”模型，以检验其在真实环境干扰下的鲁棒性。

测试从两个维度切入：目标位置是否超出训练分布，以及工作空间内是否存在杂乱物体。结果显示，LabVLA在大多数场景下成功率超过70%。与DreamZero基本持平，但在一些要求更高泛化能力的设置中略有优势——例如在“干净且目标位置超出训练分布”的场景下，LabVLA平均成功率达到80%，高于DreamZero。而在最具挑战性的漏斗插拔任务中，LabVLA也取得了最佳表现。

实验同时暴露了一些问题：液体倾倒任务对位置偏移和环境干扰最为敏感；多步骤的器皿操作则对模型的长程规划能力要求更高。总体来看，LabVLA的仿真预训练能力确实能够迁移到真实环境，方向是正确的。

团队目前正致力于将LabVLA部署到浙江大学、复旦大学、晶泰科技等真实科研场景中，重点覆盖合成生物学、药物发现、分子材料等方向。更长远的意义在于，它可以替代人工进入高危或重复性高的实验环节——有毒、易燃、高温高压等场景，正需要机器人替人“冲锋在前”，同时还能提升实验的一致性和可重复性。

面向科学具身的一点思考

如果只看实验指标，LabVLA只是一个具身模型的性能结果。但如果将其置于AI for Science的整体框架中审视，它更像是一次面向科学实验操作的基础设施探索。

第一，它把“实验室操作”这一长期缺乏形式化表达的过程，从经验性流程转变成了可建模、可学习、可评估的具身学习问题。这意味着科学实验操作终于可以被算法系统化地处理。

第二，它建立了一条完整的链路：仿真数据生成→任务结构分解→动作策略学习→真实机器人验证。科学具身智能从单点任务优化，推进到了端到端闭环建模。这种闭环对科学场景尤为关键，因为实际应用往往依赖跨环境、跨设备的连续泛化能力，而非孤立任务上的高分表现。

第三，它也清晰地划出了当前AI在实验室环境中的能力边界：LabVLA目前更像一个能初步执行科学实验的“技术员”，还不是能自主设计实验、根据结果动态调整策略的“科学家”。这个边界划清楚具有重要意义——它为后续真正的AI科学助手留下了明确的演进路径。

真实实验数据稀缺仍然是科学具身智能的核心瓶颈。团队选择开放模型、代码和数据，正是希望降低该方向的研究门槛，让更多研究者参与进来，推动科学具身智能从概念验证走向更广泛的真实应用。

结语：从技术员到科学家，还有很长的路

长期以来，AI for Science更多聚焦于认知层面的突破。而实验作为连接假设与证据的关键环节，仍然高度依赖人工操作。LabVLA探索的不是让AI直接成为科学家，而是赋予它理解实验、执行实验的能力，使其成为科研人员的协作伙伴。

当然，距离真正通用的科学具身智能，挑战还有很多：设备种类繁多、操作规范差异大、真实环境的误差累积和安全约束远比仿真复杂，高质量实验数据的获取成本高昂，不同场景之间的知识和技能迁移能力仍然有限。LabVLA目前更多是在特定任务上的初步尝试，距离一个能自主适应开放实验环境、完成跨学科研究的通用实验智能体，还有相当的距离。

但从知识理解到物理交互，从仿真学习到真实验证，科学具身智能或许正在打开AI for Science的下一扇门。

来源：https://www.163.com/dy/article/L0BQ2FVF0511AQHO.html

具身智能

延伸阅读

补充最近整理过的热点入口。