快手可灵团队开源UniVideo:单模型实现视频理解生成编辑全流程
快手可灵团队与香港滑铁卢大学联合发布了一款全新的统一视频生成基础模型——UniVideo。这项创新首次实现了对视频进行理解、编辑和生成三大核心能力的一体化集成。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该模型的核心技术架构包含两大组成部分:其一是具备多模态感知能力的大语言模型(MLLM),能够精准解析文本指令并理解视觉上下文;其二是多模态 DiT 架构(MMDiT),专门负责视频内容的生成与精细化编辑。这一方案全面覆盖了多种视频智能处理场景——支持基于文本、图像等多类提示的视频生成;可对输入的图像或视频进行深度的语义理解与分析;更能依据用户的文字描述及参考图,灵活调整视频内容结构、风格特征乃至细节表现。

在实际演示中,UniVideo 展现出高度的灵活性:既能够通过单张图片与文本提示生成全新的视频,也可以结合原始视频与参考图像完成定向修改,甚至仅凭自然语言提示即可实现对已有视频的语义级编辑。
技术层面的一项重大突破在于:采用通义千问2.5 VL 模型作为强大的“视觉大脑”,专注处理图像、视频与文本的联合理解任务;同时以混元视频模型作为“创作引擎”,承担高质量视频生成与编辑工作。二者协同运作,使系统真正兼备“看得懂”与“做得好”的双重能力。
相比以往需要调用多个专用模型分别完成不同子任务的范式,UniVideo 实现了端到端的统一建模仿真。这不仅大幅降低了部署与集成的复杂度,更让各项核心能力在训练与推理过程中能够彼此赋能、协同增强。
从实际评测效果来看,对于动作幅度较小、结构相对稳定的短视频片段,UniVideo 的输出质量表现优异;但在部分高动态、强物理属性的场景(如火焰燃烧)中,模型仍有优化空间。同时,在生成内容的细粒度一致性方面(例如发丝运动的连贯性)也尚存提升余地。尽管存在这些待完善之处,UniVideo 在通用视频智能领域的开创性探索已极具潜力与价值。
开源地址已公布。
源码地址可下载获取。
热门专题
热门推荐
鲁大师软件管家可安全升级常用软件:一、启动后点击顶部“软件管家”选项卡自动扫描;二、在“可升级软件”列表点击绿色“升级”按钮确认安装;三、勾选多个软件后点“批量升级”按钮并发处理;
3月29日,北京已在全国率先启动智能网联新能源汽车商业保险产品开发应用。新产品基本沿用现有的新能源商业车险体系,按照“总体稳定、部分优化”的原则,主要为消费者和汽车企业关心的特定智驾场景、软硬件损失
预计苹果今年将发布两款新的 iPhone 应用,包括 Apple Business 应用和一款具备类似聊天机器人功能的 Siri 应用。借助 Apple Business 应用,使用全新 Apple
据 Axios 报道,苹果公司已聘请前谷歌副总裁 Lilian Rincon 担任人工智能产品营销副总裁。加入苹果之前, Rincon 曾任谷歌购物产品副总裁。在苹果, Rincon 将负责苹果所有
3月29日消息,谁能料到前段时间奥迪车主与雷军之间的那个打赌,竟然还有后续。这到底是咋回事?事情发生在3月25日,网友@单手开吉利 在雷军的微博评论区晒出了自己去年10月刚提的奥迪车,还当场立下一个





