北大EgoLCD长短时记忆加持:超长时序世界模型解析

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:LRST
【新智元导读】视频生成模型总是「记性不好」?生成几秒钟后物体就变形、背景就穿帮?北大、中大等机构联合发布EgoLCD,借鉴人类「长短时记忆」机制,首创稀疏KV缓存+LoRA动态适应架构,彻底解决长视频「内容漂移」难题,在EgoVid-5M基准上刷新SOTA!让AI像人一样拥有连贯的第一人称视角记忆。
随着Sora、Genie等模型的爆发,视频生成正从「图生动」迈向「世界模拟器」的宏大目标。
然而,在通往「无限时长」视频生成的路上,横亘着一只拦路虎——「内容漂移」(Content Drift)。
你是否发现,现有的视频生成模型在生成长视频时,往往也是「金鱼记忆」:前一秒还是蓝色瓷砖,后一秒变成了白色墙壁;原本手里的杯子,拿着拿着就变成了奇怪的形状;
对于第一人称(Egocentric)视角这种晃动剧烈、交互复杂的场景,模型更是极其容易「迷失」。
生成长视频不难,难的是「不忘初心」。
近日,来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队,提出了一种全新的长上下文扩散模型EgoLCD,不仅引入了「类脑的长短时记忆」设计,还提出了一套全新的结构化叙事Promp方案,成功让AI在生成长视频时「记住」场景布局和物体特征。

论文地址:https://arxiv.org/abs/2512.04515
项目主页:https://aigeeksgroup.github.io/EgoLCD
在EgoVid-5M基准测试中,EgoLCD在时间一致性和生成质量上全面碾压OpenSora、SVD等主流模型,向构建具身智能世界模型迈出了关键一步!

核心痛点
AI为什么会「失忆」?
在长视频生成中,传统的自回归(AR)模型非常容易出现生成式遗忘。
这就像让一个人蒙眼画画,画着画着就偏离了最初的构图。对于第一人称视频(如Ego4D数据集)来说,剧烈的相机抖动和复杂的手物交互,让这种「漂移」更加致命。
传统的Transformer虽然有注意力机制,但面对长序列,计算量呈二次方爆炸根本存不下那么多历史信息;而简单的滑动窗口又会丢掉早期的关键信息。
EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为一个「高效且稳定的内存管理问题」。

长短时记忆系统 (Long-Short Memory)
EgoLCD 设计了一种类似人类大脑的双重记忆机制:
长期记忆(Long-Term Sparse KV Cache):不再傻傻地缓存所有Token,而是利用稀疏注意力机制,只存储和检索最关键的「语义锚点」(比如房间的布局、关键物体的特征)。这不仅大大降低了显存占用,还锁死了全局一致性。
短期记忆(Attention+LoRA):利用LoRA作为隐式记忆单元,增强短窗口注意力的适应性,快速捕捉当前视角的剧烈变化(如手的快速移动)。
一句话总结:长期记忆负责「稳」,短期记忆负责「快」。
记忆调节损失 (Memory Regulation Loss)
为了防止模型在训练时「偷懒」,团队设计了一种特殊的损失函数。它强制模型生成的每一帧,都要与从长期记忆库中检索到的「历史片段」保持语义对齐。
这就像给AI戴上了一个「紧箍咒」,一旦它生成的画面开始「胡编乱造」(漂移),Loss就会惩罚它,迫使它回归原本的设定。
结构化叙事提示 (Structured Narrative Prompting, SNP)
EgoLCD抛弃了简单的文本提示,采用了一种分段式的、包含时间逻辑的结构化剧本。
训练时:使用GPT-4o生成极其详尽的帧级描述,训练模型将视觉细节与文字严格对应。
推理时:SNP充当「外部显性记忆」,通过检索前序片段的Prompt,引导当前片段的生成,确保故事线和视觉风格的连贯。
性能炸裂


为了公正地评测「不遗忘」的能力,研究团队甚至专门开发了一套新指标——NRDP (Normalized Referenced Drifting Penalty),专门用来惩罚那些「虎头蛇尾」、越往后质量越差的模型。
实验结果显示:
一致性碾压:在NRDP-Subject(主体一致性)和NRDP-Background(背景一致性)上,EgoLCD取得了压倒性优势,漂移率极低。
超越基线:相比SVD、DynamiCrafter和OpenSora等顶流模型,EgoLCD在EgoVid-5M基准上的CD-FVD(时序连贯性)和动作一致性指标均为最佳。
极长生成:展示了长达60秒的连贯视频生成(如一名演讲者从黄昏讲到深夜),人物衣着、背景楼宇细节始终如一,没有发生形变!
通往具身智能的「黑客帝国」
EgoLCD不仅仅是一个视频生成模型,它更像是一个「第一人称世界模拟器」。
通过生成长时程、高一致性的第一人称视频,EgoLCD能够为具身智能(机器人)提供海量的训练数据,模拟复杂的物理交互和长序列任务(如做饭、修理)。
正如Sora让人们看到了世界模型的雏形,EgoLCD则让「通过视频教会机器人理解世界」的梦想,变得前所未有的清晰。
参考资料:
https://arxiv.org/abs/2512.04515
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
相关攻略
机器之心编辑部2025 年 4 月,Sand ai 开源了 MagiAttention v1 0 0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天Sand ai
3月25日,鸿蒙智行最新发布了问界M6第一期答网友问,透露了问界M5系列的后续计划。鸿蒙智行最新表示,问界M6上市后,问界M5将持续在问界家族产品序列中稳定运营。该产品已收获了超15万用户青睐,将
编辑|杜伟过去两天,全球爆火的 Agent 私人助手 OpenClaw,接连更新了两个版本,让人直呼「开发团队是不睡觉了吗?」之所以如此爆火,很大程度上归功于 OpenClaw 的长期记忆能力,它能
来源:科技日报科技日报记者 张梦然国际顶级学术期刊《自然》近期正式发表了一项汇聚人工智能(AI)与生命科学顶尖智慧的里程碑式成果。由美国Arc研究所、英伟达公司,联合斯坦福大学、加州大学伯克利分校及
IT之家 3 月 12 日消息,上汽 MG 最新今日公布了 MG 4X SUV 的部分亮点。据介绍,新车将延续发光 LOGO 设计,支持 OPPO 智行生态互联,并搭载地平线博弈大模型和半固态电池,
热门专题
热门推荐
鲁大师软件管家可安全升级常用软件:一、启动后点击顶部“软件管家”选项卡自动扫描;二、在“可升级软件”列表点击绿色“升级”按钮确认安装;三、勾选多个软件后点“批量升级”按钮并发处理;
3月29日,北京已在全国率先启动智能网联新能源汽车商业保险产品开发应用。新产品基本沿用现有的新能源商业车险体系,按照“总体稳定、部分优化”的原则,主要为消费者和汽车企业关心的特定智驾场景、软硬件损失
预计苹果今年将发布两款新的 iPhone 应用,包括 Apple Business 应用和一款具备类似聊天机器人功能的 Siri 应用。借助 Apple Business 应用,使用全新 Apple
据 Axios 报道,苹果公司已聘请前谷歌副总裁 Lilian Rincon 担任人工智能产品营销副总裁。加入苹果之前, Rincon 曾任谷歌购物产品副总裁。在苹果, Rincon 将负责苹果所有
3月29日消息,谁能料到前段时间奥迪车主与雷军之间的那个打赌,竟然还有后续。这到底是咋回事?事情发生在3月25日,网友@单手开吉利 在雷军的微博评论区晒出了自己去年10月刚提的奥迪车,还当场立下一个





