银河通用LDA模型全谱系数据跑通Scaling Law

首页

热心网友

转载

2026-05-17

近期，具身智能领域迎来密集突破，两大技术路线相继发布重要进展。

先是Generalist AI推出GEN-1模型，凭借卓越的数据效率与闭环控制性能，刷新了多项操作记录，引发行业广泛关注。短短两周后，另一重要参与者Physical Intelligence发布了新模型π 0.7，其核心聚焦于“组合与泛化”能力，对视觉-语言-动作（VLA）架构进行了重要升级。

尽管技术路径不同，但两者共同指向了具身智能发展的核心瓶颈：数据问题。

回顾大语言模型的发展历程，GPT-2的成功关键在于摆脱了对少量高质量标注数据的依赖，开启了模型规模持续扩展（Scaling）的新范式。然而，在机器人领域，如何高效“消化”真实世界中来源杂乱、形态各异的异构数据，依然是制约其发展的根本难题。

在此背景下，银河通用机器人联合清华大学、北京大学、英伟达等顶尖机构，发布了跨本体“隐式世界-动作基础模型”LDA-1B。这项研究直指具身智能Scaling Law的核心：如何让模型有效利用互联网规模的异构数据。

简而言之，LDA-1B是一个在统一隐空间中融合了世界模型与VLA能力的基础模型。其核心突破在于强大的异构数据整合能力，模型成功处理了超过3万小时的多源具身数据。无论是虚拟仿真还是真实采集的数据（虚实融合），人类示范还是机器人自主运行记录（人机混合），高质量专家轨迹还是包含噪声的“脏数据”（质量参差），甚至是没有动作标签的纯视频素材，都能被模型统一且高效地利用。

这意味着，该模型初步实现了“充分利用全部数据，并让所有数据各尽其用”的目标。

LDA-1B核心架构总览：通过统一的隐空间动力学，实现对3万小时海量异构数据的通用摄取。

在权威的RoboCasa-GR1基准测试中，LDA-1B以55.4%的任务成功率，超越了GR00T-N1.6（47.6%）和π 0.5等模型，并在真实世界的灵巧操作与长程复杂任务中展现出显著优势。

值得一提的是，这项研究成果已被机器人领域顶级会议RSS 2025接收（今年仅录用210篇），目前模型代码与权重已全面开源。

论文标题：LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion论文地址：https://arxiv.org/abs/2602.12215项目链接：https://pku-epic.github.io/LDA/代码地址：https://github.com/jiangranlv/LDA-1B

数据挑战：喂什么？怎么喂？

要理解LDA-1B的突破，首先需要审视其“消化”的数据构成。

长期以来，真实机器人数据规模有限，人类视频缺乏动作标注，仿真数据又面临真实性问题，导致不同类型的数据彼此割裂，难以协同增效。

银河通用此次的突破，离不开其构建的完整数据基础设施——银河星数（AstraData）。基于此，团队搭建了一个“五层数据金字塔”，自下而上依次为：互联网开放数据、人类行为数据、多本体合成仿真数据、真实遥操作数据以及真机自主运行数据。

为了训练这个1.6B参数的基础模型，研究团队基于该体系构建了规模庞大的通用具身交互数据集EI-30K。

但在将数据输入模型前，必须解决两大核心挑战。

首先是格式与动作对齐问题。机器人数据与人类数据采集设备不同，执行器形态各异（如夹爪、灵巧手、吸盘）。团队不仅将所有数据转换为标准的LeRobot格式，更首次系统性地提出了“统一末端执行器动作空间”的跨本体解决方案。

对于机器人，动作被定义为6自由度末端执行器位姿加上夹爪开合或灵巧手关节角度；对于人类，则映射为6自由度手腕位姿和完整的MANO手部参数。

这使得模型无需记忆特定机器人的关节运动模式，而是将所有动作统一映射到“手部如何与物体交互”的物理本质，为跨本体、跨任务泛化扫清了障碍。

其次是数据质量参差不齐的利用问题。传统方法通常只使用高质量专家数据，丢弃低质量部分。LDA-1B则采用了“按质分配，物尽其用”的策略：

高质量带动作标注数据：全面参与策略学习和动力学模型训练，享有最高权重。
次优或含噪声的动作数据：不直接用于策略学习，而是专门用于训练动力学模型和视觉预测。即使动作执行有误，其中蕴含的物理规律（如物体掉落、碰撞）依然是真实可靠的。实验表明，加入30%的低质量轨迹后，模型任务成功率反而提升了10%。
无动作标签的纯视频数据：主要为人类第一视角视频。这些数据被用于视觉预测任务，让模型在没有动作监督的情况下，通过“观察”来吸收世界状态自然演变的视觉先验知识。

这一策略带来了根本性改变：低质量数据不再是废料，无标注视频也能直接贡献价值。

正是这种科学的数据分工机制，使得具身智能的数据规模得以指数级放大，从逻辑上为通用机器人在零售拣选、工业搬运、家庭服务等场景的大规模商业部署铺平了道路。

架构融合：VLA与世界模型能否兼得？

有了海量数据，下一个关键是用什么模型架构来消化它们。

过去几年，主流方案是π 0.7所代表的视觉-语言-动作（VLA）模型：接收图像和指令，直接输出动作，链路简洁，响应迅速。但其本质是对海量数据模式进行匹配，缺乏深层的物理常识。一旦遇到训练数据中未涵盖的物理边界情况（如重心突变、摩擦力变化），极易失败。

另一条路径是世界模型。它不急于输出动作，而是先在内部进行推演：如果我执行这个动作，世界状态将如何变化？然而，多数世界模型侧重于像素级视频生成，虽然画面逼真，但物理动力学并非其学习重点。

LDA-1B的思路是打破选择困境，在隐空间中进行深度融合。它引入了统一世界模型与动作模型的WAM（World-Action Model）框架。尽管这一方向如今已成为热点，但银河通用早在2025年3月发表的论文中，就在全球范围内首次对WAM概念进行了结构化定义。

LDA-1B正是这一前瞻性路线的自然延伸，它使模型在统一框架下同步学习四种核心能力：策略学习、前向动力学预测、逆向动力学推断以及视觉预测。

从其命名即可窥见核心思想——Latent Dynamics Action Model：在隐空间中建模世界状态变化，并直接输出可执行的动作策略。

技术实现：如何做到“一个模型，四种能力”？

在具体实现上，LDA-1B如何让这一切协同工作？关键在于三个层面的统一。

第一步：统一任务形式
在LDA-1B中，策略学习、前向动力学、逆向动力学与视觉预测全部被重构为同一种数学形式：预测未来状态 + 预测未来动作。

为实现单网络多任务，模型引入了“任务嵌入（Task Embedding）”和“寄存器令牌（Register Token）”机制。通过激活不同的Task Embedding，模型可以在四种模式间灵活切换。例如，在执行“策略控制”时，用一个视觉Register Token占据未来画面的预测位置，模型则专注于推演动作序列；执行“视觉预测”时则反之。

这意味着，模型不再僵硬地区分“控制”与“建模”。通过巧妙的令牌调度，所有任务都被转化为同一类“填空题”的变体，在同一套网络底层中流畅执行。

第二步：统一表征空间
统一任务形式后，还需确定在哪个空间中进行统一。LDA-1B的选择是：放弃像素空间，采用DINO latent（特征）空间。

传统的像素级模型或基于VAE重构的隐空间，容易将物体的几何结构、外观纹理和动态变化混杂在一起（例如，浪费算力预测背景光影的细微变化），导致大规模训练效率低下。

DINO特征的优势在于：对杂乱背景不敏感，但对物体的语义信息和空间几何结构极度敏感。这使得模型在推演物理规律时，能够聚焦于“物体的交互与状态改变”，而非无关的外观细节。

简言之：LDA-1B不是在“观看世界”，而是在“理解结构化的世界”。这一步从根本上决定了其规模扩展（Scaling）的可行性。

第三步：统一模型架构
在统一任务和表征之后，最后一步是选择统一的模型架构。LDA-1B采用了多模态扩散Transformer（MM-DiT）。它同时处理两条数据流：动作序列和未来视觉特征，并通过共享的注意力机制让两者相互影响、协同学习。

可以总结为：动作和视觉的预测路径是分离的，但它们的“思考过程”是共享的。这带来一个关键效果：模型在预测动作时，会参考“未来世界将如何变化”；在预测世界状态时，也会考虑“动作将产生何种影响”。其本质是将物理世界的因果关系编码到了注意力结构之中。

三步合一——统一任务形式、统一表征空间、统一模型架构——使得模型能够在同一套框架内，同时掌握“如何行动”与“世界如何演变”。至此，它才真正拥有了一个统一的“大脑”：既能成为敏锐的行动者，也能化身精准的预测家。

性能验证：理论之外的实战表现

在实验验证部分，LDA-1B在多个维度上展示了这种一体化架构带来的显著优势。

得益于结构化隐空间带来的一体化设计，LDA-1B在任务成功率和跨任务泛化能力上，均以显著优势超越了包括大参数GR00T、π 0.5在内的现有主流模型。

团队进行了一项关键消融实验：将LDA-1B中的DINO隐空间替换为传统的VAE像素级重构空间，其余设置保持不变。结果模型成功率从55.4%骤降至20.0%。这表明，DINO隐空间并非简单的性能提升技巧，而是具身智能Scaling Law得以成立的前提条件。

落地应用：走进工厂与家庭场景

在真实世界部署中（基于Galbot和Unitree机器人平台），LDA-1B所展现出的“灵性”与鲁棒性，才是其最令人震撼之处。通过演示视频，可以清晰看到该模型如何突破传统具身智能的瓶颈，切实解决商业落地中的核心痛点。

面对从未出现在预训练数据集中的Galbot新型机器人，LDA-1B展现了极强的少样本跨本体泛化能力。这改变了以往机器人更换硬件平台就需要漫长重新训练周期的困境。

LDA-1B仅需约1小时的后训练数据，就能快速理解新硬件的动力学特性。这种极高的快速适配效率，是模型能够从实验室走向零售门店、物流仓库等多元化商业环境的基础。

在典型的长程、多步骤任务中，机器人需要应对严格的顺序依赖：

接收到复杂指令后，机器人必须按序完成叠放、转移、摆盘与加料等操作，任何一步的抓取或放置失误都会导致后续任务失败。当用户中途改变指令时，模型也能理解意图变更并实时调整动作序列，自主纠偏以完成新目标。

同时，在高自由度灵巧手操作方面，面对摩擦力特性复杂的“翻牛排”任务，LDA-1B凭借其对物理常识的深刻理解，实现了超高的任务成功率，证明其并非简单的动作模仿，而是真正掌握了接触式任务的物理内在逻辑。

另一项挑战是将一排杯子精确叠放成金字塔形，每一层的稳定堆叠都依赖于上一层的完美放置，对双臂协同与精细力控提出了极高要求。

传统模型常因单步误差累积导致任务彻底失败，而LDA-1B凭借其在隐空间内进行的实时动力学推演，能够预测动作的物理后果并进行即时纠偏。

总结与展望

回顾这一轮具身智能的发展浪潮，其轨迹与大型语言模型（LLM）的演进惊人地相似。

早期依赖手工编写规则；随后发现数据驱动的力量，开始利用海量数据进行行为克隆；而如今，单纯的行为模仿已触及物理常识的天花板。银河通用的LDA-1B提供了一种极具启发性的思路：通过一个统一的模型架构，高效利用所有异构数据，使其既能进行“深思熟虑”的推演，又能做出“精准果断”的行动，最终像语言模型一样，从海量异构数据中持续学习世界运行的底层规律。

目前，银河通用已将LDA-1B的核心算法与完整代码体系全面开源，旨在推动行业从封闭优化走向开放共建。更重要的是，这项能力并非孤立存在，它将作为核心的通用数据吞吐与跨本体学习引擎，快速集成到银河通用的全尺寸人形通用基础模型——“银河星脑（AstraBrain）”之中。

在未来的技术路线图中，团队明确了几个关键的进化方向：首先是尝试将视觉表征学习与隐空间动力学建模进行端到端的联合优化，不再受限于预提取的固定特征；其次是引入更丰富的多模态感知信息，并探索如何自动化地优化不同质量数据在训练过程中的分工与权重分配。