Meta新模型性能提升113%，首次实现边看边听多模态学习_AI热点日报

Meta新模型性能提升113%，首次实现边看边听多模态学习

类型：热点整理2026-02-28

新智元报道编辑：LRST【新智元导读】Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ，让多模态大模型首次真正「听懂世界」。现在最强的多模态大模型，虽然能接收声

新智元报道

编辑：LRST

【新智元导读】Meta携手多所高校发布了首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU+，让多模态大模型首次真正“听懂世界”。

目前顶尖的多模态大模型，虽能同时接收语音和视频输入，却难以实现真正的“同步理解”。

处理第一视角视频任务时，模型往往会出现各种问题。比如，要么完全忽略音频信息，要么误判声音来源位置，甚至仅凭视觉线索去“猜测”声音。换言之，当前的多模态大模型只是“看”得见，但还没有真正“听”得懂。

这正是当下具身智能面临的一大瓶颈。

Meta研究团队发现，问题的最大瓶颈在于数据，而非模型本身。

当前主流数据集存在三个致命问题：视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注，结果导致模型从未真正学过如何理解声音与视觉之间的关系。

为解决这一难题，Meta提出了首个自动化音视频数据引擎EgoAVU。这是一个全新的思路，能直接自动化生成跨模态数据，相关成果已被CVPR2026接收。

EgoAVU是一个完整的数据生产系统，可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频，最终形成了可规模化扩展的数据流水线。

一次生成百万级训练数据

基于EgoAVU，团队构建了两个重要资源：

EgoAVU-Instruct

包含300万条训练样本，覆盖了五大核心任务：

声源关联（Source–Sound Association， SSA）

问题是：视频里听到的某个声音（比如滋滋声）来自哪里/什么物体？

音视频片段叙述（Audio–Visual Segment Narration， AVSN）

问题是：在某个时间段（如240–250秒），描述周围环境、人物动作，以及能听到的声音。

音视频密集叙述（Audio–Visual Dense Narration， AVDN）

问题是：对整个视频进行更全面、更细节的“看到了什么/听到了什么/做了什么”密集描述。

时序推理（Temporal Reasoning， TR）

问题是：某个动作之前/之后发生了什么，通常是多选或从候选项中选出答案。

音视频幻觉检测（Audio–Visual Hallucination， AVH）

问题是：视频里是否真的存在某个声音/事件，用于检测模型是否存在“虚构”。

EgoAVU-Bench

这是首个专门评测音视频理解能力的基准测试，包含3000条人工验证问题。

性能提升有多夸张？

实验结果显示，在新数据上微调后，基准性能最高提升达113%，其他任务最高提升28%。

研究进一步揭示：当前多模态模型普遍存在严重视觉偏好。

EgoAVU带来的最大启示是：未来AI竞争的关键，可能不再是“模型结构”，而是“数据引擎能力”。

这标志着多模态AI正从“模型驱动”迈向新的技术范式“数据驱动”。

第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。

EgoAVU为这些领域提供了关键突破，让多模态大模型首次真正学会“听懂第一视角世界”。

论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth，指导老师蔡志鹏是Meta的高级研究员，主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题。论文曾被评为ECCV18年12篇最佳论文之一，并获得英特尔实验室2024年最佳学者奖。

参考资料：

来源：https://www.163.com/dy/article/KMS07IBU0511ABV6.html

模态视觉大模型 meta

补充最近整理过的热点入口。