阿里万相2.1开源 AI视频模型媲美DeepSeek

近期的AI领域,重磅消息接连不断,技术迭代速度令人目不暇接。
回顾2月25日,堪称一个“AI发布狂欢日”。凌晨两点半,Anthropic的Claude 3.7 Sonnet模型悄然上线;仅三小时后,阿里便推出了推理模型QwQ-Max的预览版;上午十点,DeepSeek开源了其DeepEP代码库;而当晚十点二十分,压轴之作震撼登场——阿里巴巴正式开源了其视频生成大模型“万相2.1”。
如此密集的发布节奏,生动诠释了当前AI行业激烈的竞争态势。
万相2.1:开源家族全员亮相
此次开源的万相2.1模型,完整发布了四个版本,清晰划分为文生视频与图生视频两大核心功能。
文生视频模型提供了1.3B和14B两种参数规模。图生视频模型则均为14B参数,主要区别在于输出分辨率,分别为480P和720P,满足不同清晰度需求。
最引人注目的是1.3B轻量版模型。其部署门槛极低,仅需8GB显存即可流畅运行。这意味着,普通用户仅凭一张RTX 4060显卡,就能在个人电脑上体验AI视频生成的魅力。实测数据显示,使用RTX 4090生成一段5秒的480P视频,耗时仅约4分钟,效率出众。
事实上,万相2.1的专业版和极速版早在春节前就已上线“通义万相”平台。经过分析,这两个线上版本均基于14B模型。专业版推测为原生720P高清输出,而极速版则可能采用先生成480P,再通过智能超分技术提升至720P的流程。
本次开源的1.3B模型,是专为降低本地部署难度而推出的新成员,目前线上平台暂未提供直接体验,爱好者需通过GitHub仓库自行部署尝鲜。
实测表现:小身材也有大能量
我们同步测试了14B线上版与1.3B本地版。总体而言,万相2.1 14B在语义理解深度、物理规律模拟以及复杂运动生成方面,稳居开源视频模型的第一阵营。而1.3B模型虽体积大幅缩减,但其生成能力依然令人惊喜。
首先是语义理解能力。面对包含连续动作指令的长文本描述,模型能够准确解析并按逻辑顺序执行。
Prompt示例:空镜从卧室顶部45度俯拍,一位女子躺在凌乱的床上。清晨阳光透过百叶窗在她脸上投下条纹状光影。她闭着眼,用手揉眼睛。然后睁开眼睛,微笑。
无论是14B还是1.3B模型,都能精准捕捉从俯拍空镜到人物特写、从闭眼揉眼到睁眼微笑的完整叙事链条,连贯性出色。
在物理真实感与材质渲染方面,模型表现扎实可靠。例如生成“高速摄影下切开柠檬”的场景时,刀刃的金属反光、柠檬汁液飞溅的瞬间动态、以及果肉切面的细腻纹理,都得到了高度逼真的还原。
运动表现是万相2.1自发布以来的核心优势。实测证实,其在处理大幅度肢体动作、物体旋转以及速度感营造上确有独到之处。例如生成“短道速滑运动员”镜头,从全景跟拍到终点前的推镜特写,人物滑行动作与镜头运动轨迹均流畅自然,富有冲击力。
更值得称道的是其先进的运镜能力。模型能够理解并实现复杂的影视级镜头语言,甚至能完成带有前景遮挡物的平移运镜,这在当前开源视频模型中实现难度颇高。
Prompt示例:低机位拍摄图书馆书架,前景书本缝隙间闪过金丝眼镜的反光。当镜头水平移过三格书架,穿灰色毛衣的男生恰好转头,看向镜头,手中悬停的棕色书本封皮。
模型生成的视频,基本实现了这种具有电影感的镜头调度与叙事节奏。
另一个突破性功能是:中文文字生成。万相2.1是全球首个能够直接生成中文文字的AI视频模型。测试中,对于笔画简单的汉字(如“福”字),模型可以较好地模拟出水墨晕染、笔划渐次成形的动态过程。
当然,该能力目前仍处于早期发展阶段,主要支持笔画较少的简单汉字,字体库也有待丰富。对于结构复杂的文字,仍可能出现字形扭曲或识别错误。但这无疑是迈向实用化的重要一步,实现了从零到一的突破。
总结来说,万相2.1在核心的语义理解、物理模拟与画面美学上表现稳健可靠。最重要的是,所有这些先进能力,现在都已向全球开发者开源开放。
如何上手:多种使用路径
对于大多数希望快速体验的用户,最便捷的途径是使用“通义万相”APP或网页版提供的14B模型服务。每日签到可获得50“灵感值”,在APP内生成一个视频还可额外获得50。生成一个专业版(14B,720P)视频仅消耗5灵感值,相当于每日可免费生成多达20个视频,配额非常慷慨。
Hugging Face平台虽提供Demo,但免费计算资源紧张,排队时间较长,体验稳定性一般,可暂作了解。
对于有高频次或商业化需求的开发者与企业团队,建议考虑接入阿里云百炼平台的API服务。其中,Plus版(对应万相2.1专业版)定价为每秒0.7元,Turbo版(对应极速版)为每秒0.24元,可按需选择。
而对于拥有8GB以上显存显卡的技术爱好者,我们强烈推荐本地部署1.3B模型。详细的部署教程与源代码均可在其GitHub官方仓库中找到。可以预见,一旦万相2.1的节点被集成进ComfyUI等主流AI工作流,其创作潜力与应用场景将得到进一步释放。
开源的意义:不止于技术
最后,让我们将视野放得更宽广。阿里在AI领域的布局已形成强大协同矩阵:通义千问系列语言模型持续保持领先,万相则补全了视频生成的关键拼图。这一系列战略动作,不仅让“阿里巴巴”成为全球AI领域无法忽视的重要力量,更在资本市场引发了积极反响。
近期阿里股价的强劲走势,并带动相关科技板块上行,其背后正是市场对其AI战略布局与迈向通用人工智能(AGI)决心的价值重估。这向世界传递了一个明确信号:中国的科技企业,在关键的人工智能赛道上,已经实现了从跟随到并跑,乃至在部分领域领跑的态势转变。
开源,是技术普惠的基石,也是生态繁荣的催化剂。将万相2.1这样的前沿模型开源,其意义远超越技术代码本身。它极大地降低了AI视频创作与创新的门槛,激发了全球开发者社区的活力,最终将加速整个AI视频应用生态的成熟与商业化落地。
未来的挑战固然众多,但此刻,我们有充分理由对以阿里、DeepSeek为代表的中国AI产业力量,抱以更坚实的信心。用开发者社区中流行的一句话来总结,或许再贴切不过:开源之神,实至名归。
相关攻略
MasterBOT(BOT)是一个融合人工智能(AI)、Web3 和机器人技术的创新项目,旨在通过去中心化的方式训练下一代机器人智能。其核心机制是利用虚拟仿真环境进行 AI 模型训练,并通过社区参与的预测市场进行激励。 MasterBOT(BOT)简介 简单来说,MasterBOT 构建在 Sola
在人工智能技术深度赋能各行业的当下,智能写作工具正迎来关键性演进。作为一款前沿的AI写作助手,Compose AI凭借其独特的设计思路与技术架构,在众多工具中脱颖而出。它不仅仅提供基础的文本补全功能,更致力于深入理解每位用户的个人表达习惯,并结合上下文语义,为写作者提供从用词、句式到篇章结构的全方位
「今天天汽真不错。」 看到这条消息,你大概会笑作者打字太不走心,但绝不会怀疑这是AI写的。原因很简单,AI生成的文案或许越来越工整,却总缺了那么点“人味儿”;反倒是真正的人类输入,还保留着手滑、分心和没来得及检查的鲜活痕迹。 不知不觉间,错别字这种曾经的瑕疵,竟成了验明“人类正身”的防伪标签。 为了
近日,李飞飞团队发布的ESI-Bench(具身空间智能基准)在人工智能领域引发了广泛关注。这一基准被许多研究者视为具身智能发展的里程碑,它系统性地揭示了当前最先进的大语言模型在理解和交互物理空间时存在的核心瓶颈。 3 元认知缺陷:AI缺乏自知之明 这或许揭示了人类智能与当前人工智能之间最根本的差异
近期,职场社交平台领英(LinkedIn)展开了一项备受关注的专项治理行动:全面清理平台上由AI生成的低质“水文”。随着ChatGPT等生成式AI工具的广泛应用,不少用户开始批量生产内容,导致平台涌现大量观点雷同、缺乏深度洞察的“正确的废话”,这不仅严重影响了用户的阅读体验,也损害了社区的内容生态与
热门专题
热门推荐
个性化学习已进入“动作”定制时代,系统通过动态分析学生数据构建个人知识图谱,实时规划学习路径、讲解方式与复习节奏。例如针对错题追溯前置薄弱点并调整讲解方法,实现从结果纠错到过程归因的转变,使大规模因材施教成为可执行、可量化的科学实践。
2025年,河北信息通信行业交出了一份令人瞩目的高质量发展答卷。核心发展指标持续领跑全国,稳居第一梯队,行业竞争优势与领先地位得到全面巩固,为河北省经济社会数字化转型构筑了坚实可靠的数字基石。 这份优异成绩,首先得益于信息基础设施的跨越式升级。全年行业固定资产投资完成115 2亿元,规模位列全国第九
北京时间2026年5月25日凌晨,中国空间站迎来又一里程碑时刻。神舟二十三号载人飞船经过约3 5小时的快速交会对接,于2时45分精准对接于天和核心舱的径向对接口。 对接约2 5小时后,舱门顺利开启。已在轨长期驻留的神舟二十一号乘组航天员,热情迎接了新战友入驻。此次“天宫会师”具有双重重要意义:它不仅
竖屏SLG手游《三国计》近期开启限时测试。其竖屏设计降低了操作门槛,便于单手游玩,同时保持了紧凑的界面布局与策略深度。玩家扮演乱世诸侯,目标是从生存壮大到问鼎中原。新手期建议紧跟主线任务,以解锁武将、兵种、科技等核心系统,并获取关键资源平稳度过开荒阶段。
一场历时四年、牵动全球游戏与科技界目光的动视暴雪股东集体诉讼案,迎来关键性进展。微软同意支付高达2 5亿美元的和解金,与提起诉讼的股东达成和解,为这场旷日持久的法律纠纷画上了阶段性句号。 根据2026年5月下旬于美国特拉华州衡平法院披露的和解协议文件,这笔巨额资金将用于赔偿在特定时间段内持有动视暴雪





