字节跳动与南洋理工大学合作,正式开源了名为StoryMem的AI视频生成框架。这一框架创造性地引入了“记忆到视频”(M2V)机制,成功将传统单镜头扩散模型拓展为能够生成多镜头、时长超过一分钟且叙事流畅的长视频系统。

该框架通过动态记忆库来存储关键帧的语义与视觉特征,并结合轻量级LoRA微调策略,在人物形象、场景风格及情节发展等多个维度实现了跨镜头的高度统一。相较于当前主流方法,其整体一致性指标提升了29%。

项目开源地址:https://www.php.cn/link/52bd90a3be645143af3c4ad082803269
同步发布的ST-Bench评测数据集涵盖了300组多镜头故事提示,全面支撑长视频生成效果的标准化评估。目前,社区已在ComfyUI平台中启动StoryMem技术集成工作。
源码地址:点击下载
