LARYBench：定义具身动作表征的ImageNet，从人类视频学习泛化表征_AI热点日报

LARYBench：定义具身动作表征的ImageNet，从人类视频学习泛化表征

类型：热点整理2026-07-05

美团技术团队发布LARYBench基准，用于系统评测通用隐式动作表征。实验显示，通用视觉模型在动作泛化和控制精度上优于专家模型。研究发现，具身动作表征可从人类视频数据中自然涌现，为行业提供新标准。

美团技术团队最近放出了一个值得关注的新东西——LARYBench（Latent Action Representation Yielding Benchmark）。简单说，这是一个系统化的评测基准，目标是从大规模视觉数据中学习通用的隐式动作表征。实验结果表明，通用视觉模型在动作泛化和控制精度上反而比那些专门为具身智能设计的“专家模型”更强，这背后的潜台词很明确：具身动作表征完全可以从人类视频数据中自然涌现，而不必死磕机器人数据。这对整个具身智能领域来说，是一个重要的风向标。

核心要点

发布LARYBench基准：美团技术团队推出了Latent Action Representation Yielding Benchmark，专门用来系统化评测通用隐式动作表征。
通用模型表现卓越：实验数据很明确——通用视觉模型在动作泛化和控制精度两个关键指标上，都压过了专门为具身智能训练的动作专家模型。
动作表征的涌现：研究发现，具身动作表征可以从大规模人类视频数据中自然涌现，并非一定要靠昂贵的机器人数据去硬教。
定义行业新标准：这个基准已经被视为具身动作表征领域的“ImageNet”，为从视觉数据中学习动作提供了可量化的度量标准。

详细分析

LARYBench：具身智能动作表征的系统化度量

LARYBench的发布，其实填补了一个很要命的空白——之前没人能系统性地评测通用隐式动作表征到底行不行。它的核心任务很简单：指引研究者如何从大规模视觉数据中提取并学习通用的动作表征。具身智能发展到现在，让机器理解并执行复杂动作一直是个硬骨头。LARYBench相当于给这个领域立了一个标杆，就像当年ImageNet之于计算机视觉——有了统一的尺度，开发者才能量化评估模型从视觉输入中提取动作逻辑的能力到底有几斤几两。

通用视觉模型与动作专家模型的对比分析

根据美团公布的实验结果，通用视觉模型的表现带来了一个挺碘伏性的启示。过去大家普遍认为，专门为具身智能设计的“动作专家模型”在特定控制任务上肯定更擅长，毕竟人家就是吃这碗饭的。但LARYBench的数据却给出了相反的结论：通用视觉模型在动作泛化和控制精度两个维度上，都显著优于那些专家模型。这意味着什么？意味着在大规模多样化数据上预训练过的通用模型，底层逻辑提取能力更强，能更好地适应不同任务和场景。适应性、精准度，两样都没落下。

从人类视频数据中涌现的具身能力

这项研究最亮眼的发现，恐怕就是“涌现”这两个字。实验表明，具身动作表征可以从大规模的人类视频数据中自然涌现。换句话说，机器通过学习人类日常视频里的动作逻辑，就能内化出通用的动作表征，而不是非得靠机器人吭哧吭哧采集海量数据。这种涌现现象背后藏着一条重要规律：人类视频里本身就包含了丰富的物理世界交互逻辑，只要算法和评测基准（比如LARYBench）引导得当，通用视觉模型完全能够把这些信息转化为机器人可控的隐式动作指令。这对解决具身智能数据匮乏的问题来说，是一条极具潜力的新路子。

行业影响

LARYBench的发布，对整个具身智能和AI行业都会产生深远影响。首先，它确立了动作表征领域“ImageNet”的地位，后续研究者有了标准化的评价体系，算法迭代速度势必加快。其次，它验证了通用视觉模型在具身领域里的巨大潜力——这很可能引发行业对“通用模型vs专家模型”路线选择的重新思考。最关键的一点，它证明了人类视频数据在具身动作学习中的核心价值，这意味着训练门槛会大幅降低，机器人技术从实验室走向现实应用场景的进程，可能会比预想的要快得多。

常见问题

问题1：什么是LARYBench？

LARYBench全称Latent Action Representation Yielding Benchmark，是由美团技术团队发布的系统化评测基准。它主要用来评估模型从大规模视觉数据中学习通用隐式动作表征的能力，被业内称为具身动作表征领域的“ImageNet”。

问题2：为什么通用视觉模型比动作专家模型表现更好？

从实验结果来看，通用视觉模型在动作泛化和控制精度上全面占优。核心原因在于，通用模型在大规模多样化数据上训练过，学到的是更深层次的视觉规律和逻辑，面对复杂的具身控制任务时，比那些只盯着单一任务的专家模型更具适应性和精确性。说白了，底子宽，路子就多。

问题3：这项研究对获取具身智能数据有什么启示？

研究表明，具身动作表征可以从人类视频数据中涌现。这意味着开发者完全可以利用现成的海量人类视频资源来训练AI，而不是非要依赖成本高昂、采集困难的机器人实地操作数据。这个思路一旦打通，具身智能规模化发展的数据瓶颈就有了新的解决方案。

来源：https://aitoolly.com/zh/ai-news/article/2026-06-12-larybenchimagenet

动作

延伸阅读

补充最近整理过的热点入口。