阿里深夜开源万相2.1,AI视频领域迎来真正的“DeepSeek”时刻。
昨天的AI圈消息接连不断。凌晨2点半,Claude发布了3.7 Sonnet;凌晨5点半,阿里推出推理模型QwQ-Max预览版;上午10点,DeepSeek开源了DeepEP代码库;到了晚上10点20,阿里的视频生成模型万相2.1正式开源。2月25号这一天,注定要在AI历史上留下深刻的印记。
万相2.1的开源链接已放出:
Huggingface:https://huggingface.co/Wan-AI
GitHub:https://github.com/Wan-Video/Wan2.1
阿里在开源这条道路上,态度十分坚定。此次上线了四个模型,文本生成视频和图生视频各两个。文本生成视频包含1.3B和14B两种规格,图生视频均为14B,分辨率分别为480P和720P。最令人惊喜的是,低配置模型1.3B仅需8G显存即可流畅运行——这意味着本地部署的RTX 4060都能轻松应对。如果你拥有4090显卡,生成一段5秒的480P视频,大约只需要4分钟。
实际上,早在春节前,万相2.1就已经上线通义万相平台,当时命名为2.1专业版和2.1极速版。实测发现,专业版和极速版都是14B模型,区别在于专业版原生输出720P分辨率,而极速版则是480P直出后再通过超分提升到720P。1.3B则是专为本地部署打造的新规格,线上暂无体验渠道,想试用只能自行部署。
第一时间进行了测试。14B模型体积较大,直接使用通义万相线上版体验;1.3B则在魔搭上部署运行,过程还算简单,魔搭链接在此:https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B
在语义理解、物理真实性和复杂运动表现方面,万相2.1 14B在开源视频模型里绝对属于第一梯队。至于1.3B,别看参数规模小,实力丝毫不含糊。直接来看几个测试案例。
首先是长文本和提示词的语义理解。一连串动作,能够严格按照Prompt顺序逐一实现。Prompt:空镜从卧室顶部45度俯拍,一位女子躺在凌乱的床上。清晨阳光透过百叶窗在她脸上投下条纹状光影。她闭着眼,用手揉眼睛。然后睁开眼睛,微笑。
14B效果:
1.3B效果:
物理规律和质感表现同样出色。切柠檬过程中,阴影变化、刀面纹理、切下去的质感,真实感十足。Prompt:高速摄影拍摄一个新鲜柠檬被切开的瞬间。镜头推进,从中景到特写。锋利的银色水果刀从上方切下,柠檬汁飞溅而出,形成细小水珠。特写画面呈现柠檬的横切面和果肉纹理。
14B效果:
1.3B效果:
运动表现是万相2.1刚上线时被广泛讨论的亮点。实测下来,虽然还谈不上版本T0,但优势确实很明显。大幅度的动作、旋转以及动作的速度,都相当生猛。Prompt:在冰面上,一位18岁的中国美少女明星短道速滑运动员熠熠生辉。她五官玲珑,神色自信,肌肤胜雪,高马尾充满活力。她身着一条薄荷绿的超短薄纱裙,裙摆随风飘动,上身搭配白色露脐运动背心。以全景镜头俯拍,通过轨道车拍摄跟行。柔和的淡蓝色灯光从斜前方洒下,光质轻柔,光比偏小,营造出清新的氛围。她身姿矫健地疾驰,临近终点时采用推镜头特写其坚毅的眼神和快速摆动的手臂。
14B效果:
1.3B效果:
2.1还支持直接实现镜头运动效果,连复杂的遮挡物运镜都能胜任。Prompt:低机位拍摄图书馆书架,前景书本缝隙间闪过金丝眼镜的反光。当镜头水平移过三格书架,穿灰色毛衣的男生恰好转头,看向镜头,手中悬停的棕色书本封皮。
14B效果:
1.3B效果:
必须重点提一下文字生成能力。万相2.1是全球首个能直接生成中文文字的AI视频模型。Prompt:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。
14B效果:
1.3B效果:
不过,文字生成仍有改进空间。实测显示,目前仅能支持简单的、笔画数较少的中文字符,可实现的字体也比较有限,复杂文字内容容易出现乱码或无法辨认的情况。但这只是起点,方向非常实用,后续优化值得期待。
整体来看,万相2.1的语义理解和物理表现都很稳定,画面审美也在基准线之上。更关键的是,这是一款开源模型,对生态系统的加持作用想象空间巨大。
如果想立即使用万相2.1,有几种方式。14B模型可以直接前往通义万相官网免费使用,每天签到可获得50灵感值,若在APP上运行一个视频还能额外增加50灵感值。专业版(14B 720P)每个视频消耗5灵感值,也就是说,一天可以免费生成20个视频。Hugging Face上的demo虽然号称可无限免费使用,但算力有限、用户众多,基本约等于无法正常使用。另一个选择是阿里云百炼,通过API调用:https://bailian.console.aliyun.com/model-market#/home,价格方面,Plus(2.1专业版)每秒0.7元,Turbo(2.1极速版)每秒0.24元。
至于1.3B模型,如果你拥有8G以上显存的显卡,直接本地部署即可,具体步骤可参考GitHub。最令人期待的还是与ComfyUI的集成——如果能接入,玩法空间将大大扩展。
最后,不得不感叹阿里的魄力。AI领域的半壁江山,现在几乎都与阿里相关。Qwen作为大模型领域的领航者遥遥领先,万相则填补了AI视频生成的空白。如今全球都知道了阿里的名号。不止AI圈,金融圈也因阿里的策略重新关注中国资产。阿里股价的上涨、恒生科技和中概互联的飞跃,都与此密切相关。中国资产正在全面复苏,而这背后正是阿里亮眼的财报与布局AGI的决心,让全球投资者认识到:中国的宏观环境、行业生态、企业发展,在关键节点上都已经完成了对齐。
这也向全世界传递了一个信号:我们不仅是在跟跑,我们也开始领跑了。未来挑战肯定更多,但我们有理由对阿里、对DeepSeek、对整个中国AI产业抱以更大信心。
一句话收尾:源神之名,当之无愧。
