万相已正式开源免费供开发者下载使用_AI热点日报

万相已正式开源免费供开发者下载使用

类型：热点整理2026-07-01

阿里云最新推出的视频生成大模型万相2 1（Wan）已正式以Apache 2 0协议全面开源，14B与1 3B两种参数规格的完整推理代码及权重均开放下载，同时支持文生视频和图生视频两种任务。全球开发者现可通过GitHub、HuggingFace、魔搭社区直接获取。这一举措不仅标志着阿里云在视频生成技术

阿里云最新推出的视频生成大模型万相2.1（Wan）已正式以Apache 2.0协议全面开源，14B与1.3B两种参数规格的完整推理代码及权重均开放下载，同时支持文生视频和图生视频两种任务。全球开发者现可通过GitHub、HuggingFace、魔搭社区直接获取。这一举措不仅标志着阿里云在视频生成技术领域取得重大突破，也预示着AI视频创作正迈入一个全新纪元。

此次开源的两种参数版本各有侧重：

14B版本在指令遵循、复杂运动生成、物理建模以及文字视频生成等方面表现尤为突出。在权威评测集Vbench中，万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型，稳居榜首。

1.3B版本则更接地气——不仅性能超越了更大尺寸的开源模型，甚至与部分闭源模型的结果相当，而且能够在消费级显卡上运行，仅需8.2GB显存即可生成480P视频。这对二次开发与学术研究而言，无疑是巨大的利好。

自2023年起，阿里云便坚定地走大模型开源路线。千问（Qwen）衍生模型数量已超过10万个，成为全球规模最大的AI模型家族。随着万相的开源，阿里云的两大基础模型均已开放，形成了全模态、全尺寸大模型的开源格局。

万相2.1（Wan）模型技术深度解析

模型性能表现

万相大模型在多项内部及外部基准测试中，均大幅超越现有开源模型以及顶尖商业闭源模型。它能够稳定生成各种复杂的人物肢体运动——旋转、跳跃、转身、翻滚等动作均可流畅呈现；同时精准还原碰撞、反弹、切割等真实物理场景。在指令遵循能力上，它能够准确理解中英文长文本指令，还原多样的场景切换与角色互动。

核心技术亮点

基于主流的DiT架构与线性噪声轨迹Flow Matching范式，万相大模型通过一系列技术创新实现了生成能力的重大突破。核心创新点包括：高效的因果3D VAE——专为视频生成设计的新型架构，融合多种策略改进时空压缩、降低内存占用并确保时间因果性；视频Diffusion Transformer——基于主流视频DiT结构，通过Full Attention机制确保长时程时空依赖的有效建模，实现时空一致的视频生成；以及模型训练与推理效率优化——训练阶段采用DP与FSDP组合的分布式策略，对于DiT模块则使用DP、FSDP、RingAttention、Ulysses混合并行策略。推理阶段，为降低延迟，可选择CP进行分布式加速，当模型较大时还需进行模型切分。

开源社区友好度

万相已在GitHub、HuggingFace、魔搭社区全面开源，支持Gradio体验、xDiT并行加速推理，Diffusers与ComfyUI也在快速接入中。无论是快速原型开发还是高效生产部署，均可轻松实现。

开源社区链接：
GitHub: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
魔搭社区: https://modelscope.cn/organization/Wan-AI

附录：万相模型生成Demo展示

首个具备支持中文文字生成能力，且同时支持中英文文字特效生成的视频生成模型：

更稳定的复杂运动生成能力：

更灵活的运镜控制能力：

更好的物理规律理解，更好地模拟真实世界：

高级质感、多种风格、多样长宽比：

图生视频，让创作更加可控：

来源：https://www.53ai.com/news/OpenSourceLLM/2025022684562.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。