阿里万相2.1开源 AI视频模型媲美DeepSeek

时间：2026-05-25 08:49

近期的AI领域，重磅消息接连不断，技术迭代速度令人目不暇接。回顾2月25日，堪称一个“AI发布狂欢日”。凌晨两点半，Anthropic的Claude 3 7 Sonnet模型悄然上线；仅三小时后，阿里便推出了推理模型QwQ-Max的预览版；上午十点，DeepSeek开源了其DeepEP代码库；而当

阿里深夜开源万相2.1，这是AI视频领域的DeepSeek！

近期的AI领域，重磅消息接连不断，技术迭代速度令人目不暇接。

回顾2月25日，堪称一个“AI发布狂欢日”。凌晨两点半，Anthropic的Claude 3.7 Sonnet模型悄然上线；仅三小时后，阿里便推出了推理模型QwQ-Max的预览版；上午十点，DeepSeek开源了其DeepEP代码库；而当晚十点二十分，压轴之作震撼登场——阿里巴巴正式开源了其视频生成大模型“万相2.1”。

如此密集的发布节奏，生动诠释了当前AI行业激烈的竞争态势。

万相2.1：开源家族全员亮相

此次开源的万相2.1模型，完整发布了四个版本，清晰划分为文生视频与图生视频两大核心功能。

文生视频模型提供了1.3B和14B两种参数规模。图生视频模型则均为14B参数，主要区别在于输出分辨率，分别为480P和720P，满足不同清晰度需求。

最引人注目的是1.3B轻量版模型。其部署门槛极低，仅需8GB显存即可流畅运行。这意味着，普通用户仅凭一张RTX 4060显卡，就能在个人电脑上体验AI视频生成的魅力。实测数据显示，使用RTX 4090生成一段5秒的480P视频，耗时仅约4分钟，效率出众。

事实上，万相2.1的专业版和极速版早在春节前就已上线“通义万相”平台。经过分析，这两个线上版本均基于14B模型。专业版推测为原生720P高清输出，而极速版则可能采用先生成480P，再通过智能超分技术提升至720P的流程。

本次开源的1.3B模型，是专为降低本地部署难度而推出的新成员，目前线上平台暂未提供直接体验，爱好者需通过GitHub仓库自行部署尝鲜。

实测表现：小身材也有大能量

我们同步测试了14B线上版与1.3B本地版。总体而言，万相2.1 14B在语义理解深度、物理规律模拟以及复杂运动生成方面，稳居开源视频模型的第一阵营。而1.3B模型虽体积大幅缩减，但其生成能力依然令人惊喜。

首先是语义理解能力。面对包含连续动作指令的长文本描述，模型能够准确解析并按逻辑顺序执行。

Prompt示例：空镜从卧室顶部45度俯拍，一位女子躺在凌乱的床上。清晨阳光透过百叶窗在她脸上投下条纹状光影。她闭着眼，用手揉眼睛。然后睁开眼睛，微笑。

无论是14B还是1.3B模型，都能精准捕捉从俯拍空镜到人物特写、从闭眼揉眼到睁眼微笑的完整叙事链条，连贯性出色。

在物理真实感与材质渲染方面，模型表现扎实可靠。例如生成“高速摄影下切开柠檬”的场景时，刀刃的金属反光、柠檬汁液飞溅的瞬间动态、以及果肉切面的细腻纹理，都得到了高度逼真的还原。

运动表现是万相2.1自发布以来的核心优势。实测证实，其在处理大幅度肢体动作、物体旋转以及速度感营造上确有独到之处。例如生成“短道速滑运动员”镜头，从全景跟拍到终点前的推镜特写，人物滑行动作与镜头运动轨迹均流畅自然，富有冲击力。

更值得称道的是其先进的运镜能力。模型能够理解并实现复杂的影视级镜头语言，甚至能完成带有前景遮挡物的平移运镜，这在当前开源视频模型中实现难度颇高。

Prompt示例：低机位拍摄图书馆书架，前景书本缝隙间闪过金丝眼镜的反光。当镜头水平移过三格书架，穿灰色毛衣的男生恰好转头，看向镜头，手中悬停的棕色书本封皮。

模型生成的视频，基本实现了这种具有电影感的镜头调度与叙事节奏。

另一个突破性功能是：中文文字生成。万相2.1是全球首个能够直接生成中文文字的AI视频模型。测试中，对于笔画简单的汉字（如“福”字），模型可以较好地模拟出水墨晕染、笔划渐次成形的动态过程。

当然，该能力目前仍处于早期发展阶段，主要支持笔画较少的简单汉字，字体库也有待丰富。对于结构复杂的文字，仍可能出现字形扭曲或识别错误。但这无疑是迈向实用化的重要一步，实现了从零到一的突破。

总结来说，万相2.1在核心的语义理解、物理模拟与画面美学上表现稳健可靠。最重要的是，所有这些先进能力，现在都已向全球开发者开源开放。

如何上手：多种使用路径

对于大多数希望快速体验的用户，最便捷的途径是使用“通义万相”APP或网页版提供的14B模型服务。每日签到可获得50“灵感值”，在APP内生成一个视频还可额外获得50。生成一个专业版（14B，720P）视频仅消耗5灵感值，相当于每日可免费生成多达20个视频，配额非常慷慨。

Hugging Face平台虽提供Demo，但免费计算资源紧张，排队时间较长，体验稳定性一般，可暂作了解。

对于有高频次或商业化需求的开发者与企业团队，建议考虑接入阿里云百炼平台的API服务。其中，Plus版（对应万相2.1专业版）定价为每秒0.7元，Turbo版（对应极速版）为每秒0.24元，可按需选择。

而对于拥有8GB以上显存显卡的技术爱好者，我们强烈推荐本地部署1.3B模型。详细的部署教程与源代码均可在其GitHub官方仓库中找到。可以预见，一旦万相2.1的节点被集成进ComfyUI等主流AI工作流，其创作潜力与应用场景将得到进一步释放。

开源的意义：不止于技术

最后，让我们将视野放得更宽广。阿里在AI领域的布局已形成强大协同矩阵：通义千问系列语言模型持续保持领先，万相则补全了视频生成的关键拼图。这一系列战略动作，不仅让“阿里巴巴”成为全球AI领域无法忽视的重要力量，更在资本市场引发了积极反响。

近期阿里股价的强劲走势，并带动相关科技板块上行，其背后正是市场对其AI战略布局与迈向通用人工智能（AGI）决心的价值重估。这向世界传递了一个明确信号：中国的科技企业，在关键的人工智能赛道上，已经实现了从跟随到并跑，乃至在部分领域领跑的态势转变。

开源，是技术普惠的基石，也是生态繁荣的催化剂。将万相2.1这样的前沿模型开源，其意义远超越技术代码本身。它极大地降低了AI视频创作与创新的门槛，激发了全球开发者社区的活力，最终将加速整个AI视频应用生态的成熟与商业化落地。

未来的挑战固然众多，但此刻，我们有充分理由对以阿里、DeepSeek为代表的中国AI产业力量，抱以更坚实的信心。用开发者社区中流行的一句话来总结，或许再贴切不过：开源之神，实至名归。

来源：https://www.uisdc.com/wan-2-1

上一篇DeepSeek实操手册轻松处理复杂工作任务指南 下一篇大厂AI大模型科普课零基础入门到精通

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略，在大模型的内容采信规则下已经基本失效。取而代之的，是生成式引擎优化（GEO）。它不再关注外链数量，而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG（检索增强生成）架构真正看重的核心指