Meta新模型性能提升113%,首次实现边看边听多模态学习

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:LRST
【新智元导读】Meta携手多所高校发布了首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU+,让多模态大模型首次真正“听懂世界”。
目前顶尖的多模态大模型,虽能同时接收语音和视频输入,却难以实现真正的“同步理解”。
处理第一视角视频任务时,模型往往会出现各种问题。比如,要么完全忽略音频信息,要么误判声音来源位置,甚至仅凭视觉线索去“猜测”声音。换言之,当前的多模态大模型只是“看”得见,但还没有真正“听”得懂。
这正是当下具身智能面临的一大瓶颈。
Meta研究团队发现,问题的最大瓶颈在于数据,而非模型本身。

当前主流数据集存在三个致命问题:视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注,结果导致模型从未真正学过如何理解声音与视觉之间的关系。
为解决这一难题,Meta提出了首个自动化音视频数据引擎EgoAVU。这是一个全新的思路,能直接自动化生成跨模态数据,相关成果已被CVPR2026接收。


EgoAVU是一个完整的数据生产系统,可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频,最终形成了可规模化扩展的数据流水线。
一次生成百万级训练数据

基于EgoAVU,团队构建了两个重要资源:
EgoAVU-Instruct
包含300万条训练样本,覆盖了五大核心任务:
声源关联(Source–Sound Association, SSA)
问题是:视频里听到的某个声音(比如滋滋声)来自哪里/什么物体?
音视频片段叙述(Audio–Visual Segment Narration, AVSN)
问题是:在某个时间段(如240–250秒),描述周围环境、人物动作,以及能听到的声音。
音视频密集叙述(Audio–Visual Dense Narration, AVDN)
问题是:对整个视频进行更全面、更细节的“看到了什么/听到了什么/做了什么”密集描述。
时序推理(Temporal Reasoning, TR)
问题是:某个动作之前/之后发生了什么,通常是多选或从候选项中选出答案。
音视频幻觉检测(Audio–Visual Hallucination, AVH)
问题是:视频里是否真的存在某个声音/事件,用于检测模型是否存在“虚构”。
EgoAVU-Bench
这是首个专门评测音视频理解能力的基准测试,包含3000条人工验证问题。
性能提升有多夸张?

实验结果显示,在新数据上微调后,基准性能最高提升达113%,其他任务最高提升28%。
研究进一步揭示:当前多模态模型普遍存在严重视觉偏好。
EgoAVU带来的最大启示是:未来AI竞争的关键,可能不再是“模型结构”,而是“数据引擎能力”。
这标志着多模态AI正从“模型驱动”迈向新的技术范式“数据驱动”。
第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。
EgoAVU为这些领域提供了关键突破,让多模态大模型首次真正学会“听懂第一视角世界”。

论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth,指导老师蔡志鹏是Meta的高级研究员,主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题。论文曾被评为ECCV18年12篇最佳论文之一,并获得英特尔实验室2024年最佳学者奖。

参考资料:
相关攻略
这项由复旦大学未来信息技术学院和上海创新研究院联合开展的研究发表于2026年3月的计算机视觉顶级会议论文集,论文编号为arXiv:2603 19571v1。对这一前沿技术感兴趣的读者可以通过该编号查
编辑|泽南刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪
全球全模态大模型竞赛迎来新变数。3月30日,阿里巴巴正式推出千问系列新一代全模态大模型Qwen3 5-Omni。这款模型在音视频理解、跨模态推理、实时交互等215项第三方评测中拿下SOTA(Stat
3月30日,阿里云正式发布Qwen3 5-Omni全模态大模型,这是Qwen系列最新一代产品,支持文本、图片、音频及音视频理解。该模型采用Hybrid-Attention MoE架构,Thinker
快科技3月30日消息,阿里今日正式发布千问新一代全模态大模型Qwen3 5-Omni。据悉,Qwen3 5-Omni采用混合注意力MoE架构,可实现图片、视频、语音、文字等全模态内容的输入与输出。在
热门专题
热门推荐
华硕联席CEO许先越:苹果MacBook Neo冲击PC生态圈,定位“笔记本形态iPad” PC行业最近又迎来一个重磅话题。科技媒体PCMag日前报道称,在近期的财报电话会议上,华硕联席CEO许先越发表了一个引人瞩目的判断:苹果推出其最便宜的MacBook Neo笔记本,对整个PC行业而言,无疑是一
安伯尼克 Anbernic RG VITA 系列掌机规格揭晓:紫光展锐 T618 瑞芯微 RK3576 芯片 安伯尼克 Anbernic 于昨日通过视频,正式揭开了RG VITA及VITA Pro两款掌机的详细规格面纱。对于关注掌上游戏设备的玩家来说,这波参数放送,信息量着实不小。 具体两款机型
在龙族卡塞尔之门的战场,皇女零的阵容搭配艺术 想在《龙族卡塞尔之门》的战场上最大化皇女零的威力?阵容的搭配可是一门学问。她自身无疑是核心的输出利器,但要让这把利刃发挥极致,就得围绕她构建一个既能稳固防守、又能创造绝佳输出时机的团队。 核心角色选择:强攻与辅佐的默契 皇女零的定位清晰——核心输出。因此
XRP ETF:2025 年的最新发展 如果说2024年是比特币和以太坊ETF的“破冰之年”,那么2025年的聚光灯,无疑转向了XRP。随着现货比特币和以太坊ETF成为主流金融机构的标准配置,全球市场的目光正聚焦于下一个可能爆发的领域:XRP及其各类交易所交易基金(ETF)。从基于期货的美国产品到已
飞读小说APP:三步“读心术”,精准找到你的下一本心头好 面对海量书库,如何在飞读小说里高效率地挑出那本合胃口的好书?这事说难也简单,关键在于摸清楚平台的推荐逻辑和筛选工具。今天,我们就来把这套“选小说”的实用方法论,给你讲明白。 飞读小说app小说选择方法: 第一步,精准定位你的“阅读舒适区”。打





