Meta新模型性能提升113%,首次实现边看边听多模态学习

新智元报道
编辑:LRST
【新智元导读】Meta携手多所高校发布了首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU+,让多模态大模型首次真正“听懂世界”。
目前顶尖的多模态大模型,虽能同时接收语音和视频输入,却难以实现真正的“同步理解”。
处理第一视角视频任务时,模型往往会出现各种问题。比如,要么完全忽略音频信息,要么误判声音来源位置,甚至仅凭视觉线索去“猜测”声音。换言之,当前的多模态大模型只是“看”得见,但还没有真正“听”得懂。
这正是当下具身智能面临的一大瓶颈。
Meta研究团队发现,问题的最大瓶颈在于数据,而非模型本身。

当前主流数据集存在三个致命问题:视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注,结果导致模型从未真正学过如何理解声音与视觉之间的关系。
为解决这一难题,Meta提出了首个自动化音视频数据引擎EgoAVU。这是一个全新的思路,能直接自动化生成跨模态数据,相关成果已被CVPR2026接收。


EgoAVU是一个完整的数据生产系统,可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频,最终形成了可规模化扩展的数据流水线。
一次生成百万级训练数据

基于EgoAVU,团队构建了两个重要资源:
EgoAVU-Instruct
包含300万条训练样本,覆盖了五大核心任务:
声源关联(Source–Sound Association, SSA)
问题是:视频里听到的某个声音(比如滋滋声)来自哪里/什么物体?
音视频片段叙述(Audio–Visual Segment Narration, AVSN)
问题是:在某个时间段(如240–250秒),描述周围环境、人物动作,以及能听到的声音。
音视频密集叙述(Audio–Visual Dense Narration, AVDN)
问题是:对整个视频进行更全面、更细节的“看到了什么/听到了什么/做了什么”密集描述。
时序推理(Temporal Reasoning, TR)
问题是:某个动作之前/之后发生了什么,通常是多选或从候选项中选出答案。
音视频幻觉检测(Audio–Visual Hallucination, AVH)
问题是:视频里是否真的存在某个声音/事件,用于检测模型是否存在“虚构”。
EgoAVU-Bench
这是首个专门评测音视频理解能力的基准测试,包含3000条人工验证问题。
性能提升有多夸张?

实验结果显示,在新数据上微调后,基准性能最高提升达113%,其他任务最高提升28%。
研究进一步揭示:当前多模态模型普遍存在严重视觉偏好。
EgoAVU带来的最大启示是:未来AI竞争的关键,可能不再是“模型结构”,而是“数据引擎能力”。
这标志着多模态AI正从“模型驱动”迈向新的技术范式“数据驱动”。
第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。
EgoAVU为这些领域提供了关键突破,让多模态大模型首次真正学会“听懂第一视角世界”。

论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth,指导老师蔡志鹏是Meta的高级研究员,主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题。论文曾被评为ECCV18年12篇最佳论文之一,并获得英特尔实验室2024年最佳学者奖。

参考资料:
相关攻略
头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智
智东西编译 陈佳编辑 程茜智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据最新博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数
带着 Seedance 2 0 和 ArkClaw 两件新武器,火山引擎开始席卷 MaaS 市场。作者|郑玄两年前,火山引擎说要 All in Token 的时候,很多人觉得这是一句正确但空洞的口号
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更
热门专题
热门推荐
科学家警告,过度依赖人工智能可能削弱创造力与批判性思维,类似GPS损害方向感。研究显示,AI替代需“认知摩擦”的思考过程,或导致认知能力衰退。专家建议应有意识使用AI,使其成为思维“扩音器”而非替代品,例如先自主判断、加深信息处理、主动创意构思,以保护并锻炼大脑独特能力。
谷歌推出云端AI驱动的安卓电脑,重塑PC形态。当前AIPC多依赖云端算力,本地硬件价值受质疑。云电脑与AI结合成为新方向,对网络延迟更宽容。谷歌联合硬件伙伴推进该方案,阿里等云服务商也已布局。传统芯片、终端厂商及微软、苹果正以不同策略应对AIPC趋势。未来竞争将聚焦云端能力、系统重构与生态协。
结论先行:在2026年的商业环境中,企业数字化转型方法的核心不再是单纯的IT系统堆砌,而是“业务流程自动化”与“AI智能化”的深度融合。成功的数字化转型方法论应遵循“小步快跑、场景切入、数据驱动”的原则,利用AI Agent(智能体)技术打通烟囱式系统,实现平滑升级,而非推倒重来。 一、 拒绝假大空
面对琳琅满目的产品设计软件,许多设计师和团队都在追问:究竟哪一款才是最好的选择?然而,真正的答案并非一个简单的软件名称,而是一套基于您具体工作流程的适配逻辑。本文将为您系统解析,如何跳出“最好”的迷思,找到最“对”的那款工具,从而最大化团队效率与产出价值。 核心决策逻辑 首先,我们必须确立一个核心原
跨境电商的售后环节,本质上是客户信任的二次考验。当问题出现时,初次交易建立的信任已然动摇,若处理不当,将直接导致客户永久流失。因此,构建一套真正高效的售后体系,必须实现三大核心目标:响应速度需如本地支付般即时;处理规则需预先设定,实现小额纠纷的自动化化解;最终,所有流程数据必须形成闭环,驱动供应链的





