美团LARYBench：定义具身动作表征的ImageNet 揭示通用视觉模型泛化优势_AI热点日报

美团LARYBench：定义具身动作表征的ImageNet 揭示通用视觉模型泛化优势

类型：热点整理2026-07-04

要深入理解具身智能领域的最新突破，首先需要关注美团技术团队发布的重磅工具——LARYBench（Latent Action Representation Yielding Benchmark）。这一评测基准的核心目标非常明确：为那些希望从海量视觉数据中学习通用隐式动作表征的研究人员，提供一把标准化的

要深入理解具身智能领域的最新突破，首先需要关注美团技术团队发布的重磅工具——LARYBench（Latent Action Representation Yielding Benchmark）。这一评测基准的核心目标非常明确：为那些希望从海量视觉数据中学习通用隐式动作表征的研究人员，提供一把标准化的衡量标尺。实验数据揭示了一个引人注目的现象：通用视觉模型在动作理解与精准控制方面，竟然全面超越了专为具身智能设计的“专家模型”。换言之，那种具备跨场景适应能力的通用动作表征，实际上可以通过观察大量人类视频自然“涌现”，而并非必须依赖昂贵的机器人示教数据。这一发现为具身智能的标准化评估开辟了一条全新的路径。

核心要点

发布LARYBench评测基准：一套系统化评估通用隐式动作表征的专业工具，由美团技术团队打造。
通用模型表现更加出色：实验数据明确显示，通用视觉模型在动作泛化能力与控制精准度上，均优于专门的具身模型。
数据驱动的涌现效应：研究表明，具身动作表征能够从大规模人类视频数据中直接、自然地“生发”，无需依赖特定任务的标注数据。
塑造行业评测标准：这套新基准被誉为具身动作表征领域的“ImageNet”，首次实现了对人类视频中习得的泛化表征进行量化评估。

详细分析

接下来，我们梳理几个必须理解的关键议题。

LARYBench：具身智能动作表征的全新评测标尺

LARYBench的问世，实质上是填补了具身智能领域长期存在的空白——通用动作表征评估工具的缺失。过去，开发者常常面临这样的困境：自己设计的模型在任务A上表现良好，但切换到任务B时就束手无策，而标准化的评测体系却付之阙如。LARYBench正是针对这一痛点而来。它构建了一套系统化的评测架构，使得不同模型在处理复杂物理交互时的表征能力，首次拥有了统一的比较维度。其地位与意义，类似于当年ImageNet在计算机视觉领域中所扮演的角色——通过标准化的数据与任务，驱动整个行业的技术迭代与进步。

通用视觉模型与专家模型的效能对比

在LARYBench构建的实验框架下，研究人员将通用视觉模型与那些专为具身智能任务训练的动作专家模型进行了正面比拼。数据所揭示的趋势十分耐人寻味：通用模型在“动作泛化”和“控制精度”这两项硬性指标上，均表现得更胜一筹。这意味着什么？它意味着具备强大特征提取能力的通用模型，在理解动作背后的逻辑、执行高精度控制的过程中，展现出了比那些仅盯着特定具身任务训练的“专家”更强的自适应性与准确性。这一结论对“专用模型一定优于通用模型”的传统认知构成了有力挑战，并凸显出一个更本质的理念：基础的视觉能力，才是支撑具身任务的关键底层能力。

具身动作表征的涌现现象

研究中最令人振奋的发现，或许在于具身动作表征的来源问题。实验结果表明，这种看似复杂的动作表征，并不一定需要依赖高成本的机器人示教数据去逐个学习，它完全可以从海量的人类视频数据中自然地“涌现”出来。当模型接触到足够数量的人类活动视频后，会自动捕捉到关于动作、力度与空间关系的那些隐含而深层的规律。这种从非结构化、随意记录的视频中提取通用动作知识的能力，极大地降低了具身智能模型训练的门槛。换个角度看，这意味着利用互联网上本就存在且规模庞大的视频资源来增强机器人的操作能力，是一条极具探索价值的新路径。

行业影响

因此，LARYBench带来的冲击波是具体而实质的。首先，它为行业提供了一把硬通货式的量化工具，让开发者能够清晰判断自己模型在动作表征上的真实水平，从而加速算法的优化周期。其次，该研究结论显著提升了通用视觉模型的地位，这很可能会引导行业资源向更大规模的基础模型研发方向倾斜。最后，证实了人类视频数据在具身学习中确实能发挥作用，这将促使更多的企业与研究机构认真思考——如何将手上及互联网上的视频资源充分利用起来，攻克具身智能领域长期面临的数据稀缺难题。

常见问题

问题 1：LARYBench的主要功能是什么？

简单来说，它是一套专门用于度量和引导模型从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。在具身动作表征这个方向上，其所扮演的角色与当年的ImageNet类似。

问题 2：为什么通用视觉模型在具身任务中表现更好？

实验数据显示，通用视觉模型在动作泛化与控制精度两个维度上均表现出明显优势。通常的解释是，通用模型在接受大规模数据训练的过程中，习得了更丰富、更本质的特征表示，这使得它在面对未见过的动作或需要极高控制精度的场景时，具备更强的适应能力。

问题 3：这项研究对数据采集有何启示？

答案非常直接：研究证明，具身动作表征可以从大规模人类视频中“涌现”。这意味着，除了高成本、高难度的直接机器人数据采集之外，充分利用互联网上已有的海量人类活动视频资源，同样是提升具身智能模型性能的一条有效且值得投入的路径。

来源：https://aitoolly.com/zh/ai-news/article/2026-06-29-meituan-tech-team-launches-larybench-a-new-benchmark-for-general-latent-action-representation-in-emb

动作

延伸阅读

补充最近整理过的热点入口。