阿里云最新推出的视频生成大模型万相2.1(Wan)已正式以Apache 2.0协议全面开源,14B与1.3B两种参数规格的完整推理代码及权重均开放下载,同时支持文生视频和图生视频两种任务。全球开发者现可通过GitHub、HuggingFace、魔搭社区直接获取。这一举措不仅标志着阿里云在视频生成技术领域取得重大突破,也预示着AI视频创作正迈入一个全新纪元。
此次开源的两种参数版本各有侧重:
14B版本在指令遵循、复杂运动生成、物理建模以及文字视频生成等方面表现尤为突出。在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首。
1.3B版本则更接地气——不仅性能超越了更大尺寸的开源模型,甚至与部分闭源模型的结果相当,而且能够在消费级显卡上运行,仅需8.2GB显存即可生成480P视频。这对二次开发与学术研究而言,无疑是巨大的利好。
自2023年起,阿里云便坚定地走大模型开源路线。千问(Qwen)衍生模型数量已超过10万个,成为全球规模最大的AI模型家族。随着万相的开源,阿里云的两大基础模型均已开放,形成了全模态、全尺寸大模型的开源格局。
万相2.1(Wan)模型技术深度解析
模型性能表现
万相大模型在多项内部及外部基准测试中,均大幅超越现有开源模型以及顶尖商业闭源模型。它能够稳定生成各种复杂的人物肢体运动——旋转、跳跃、转身、翻滚等动作均可流畅呈现;同时精准还原碰撞、反弹、切割等真实物理场景。在指令遵循能力上,它能够准确理解中英文长文本指令,还原多样的场景切换与角色互动。
核心技术亮点
基于主流的DiT架构与线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大突破。核心创新点包括:高效的因果3D VAE——专为视频生成设计的新型架构,融合多种策略改进时空压缩、降低内存占用并确保时间因果性;视频Diffusion Transformer——基于主流视频DiT结构,通过Full Attention机制确保长时程时空依赖的有效建模,实现时空一致的视频生成;以及模型训练与推理效率优化——训练阶段采用DP与FSDP组合的分布式策略,对于DiT模块则使用DP、FSDP、RingAttention、Ulysses混合并行策略。推理阶段,为降低延迟,可选择CP进行分布式加速,当模型较大时还需进行模型切分。
开源社区友好度
万相已在GitHub、HuggingFace、魔搭社区全面开源,支持Gradio体验、xDiT并行加速推理,Diffusers与ComfyUI也在快速接入中。无论是快速原型开发还是高效生产部署,均可轻松实现。
- 开源社区链接:
- GitHub: https://github.com/Wan-Video
- HuggingFace: https://huggingface.co/Wan-AI
- 魔搭社区: https://modelscope.cn/organization/Wan-AI
附录:万相模型生成Demo展示
首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型:
更稳定的复杂运动生成能力:
更灵活的运镜控制能力:
更好的物理规律理解,更好地模拟真实世界:
高级质感、多种风格、多样长宽比:
图生视频,让创作更加可控:
