
近期的AI领域,重磅消息接连不断,技术迭代速度令人目不暇接。
回顾2月25日,堪称一个“AI发布狂欢日”。凌晨两点半,Anthropic的Claude 3.7 Sonnet模型悄然上线;仅三小时后,阿里便推出了推理模型QwQ-Max的预览版;上午十点,DeepSeek开源了其DeepEP代码库;而当晚十点二十分,压轴之作震撼登场——阿里巴巴正式开源了其视频生成大模型“万相2.1”。
如此密集的发布节奏,生动诠释了当前AI行业激烈的竞争态势。
万相2.1:开源家族全员亮相
此次开源的万相2.1模型,完整发布了四个版本,清晰划分为文生视频与图生视频两大核心功能。
文生视频模型提供了1.3B和14B两种参数规模。图生视频模型则均为14B参数,主要区别在于输出分辨率,分别为480P和720P,满足不同清晰度需求。
最引人注目的是1.3B轻量版模型。其部署门槛极低,仅需8GB显存即可流畅运行。这意味着,普通用户仅凭一张RTX 4060显卡,就能在个人电脑上体验AI视频生成的魅力。实测数据显示,使用RTX 4090生成一段5秒的480P视频,耗时仅约4分钟,效率出众。
事实上,万相2.1的专业版和极速版早在春节前就已上线“通义万相”平台。经过分析,这两个线上版本均基于14B模型。专业版推测为原生720P高清输出,而极速版则可能采用先生成480P,再通过智能超分技术提升至720P的流程。
本次开源的1.3B模型,是专为降低本地部署难度而推出的新成员,目前线上平台暂未提供直接体验,爱好者需通过GitHub仓库自行部署尝鲜。
实测表现:小身材也有大能量
我们同步测试了14B线上版与1.3B本地版。总体而言,万相2.1 14B在语义理解深度、物理规律模拟以及复杂运动生成方面,稳居开源视频模型的第一阵营。而1.3B模型虽体积大幅缩减,但其生成能力依然令人惊喜。
首先是语义理解能力。面对包含连续动作指令的长文本描述,模型能够准确解析并按逻辑顺序执行。
Prompt示例:空镜从卧室顶部45度俯拍,一位女子躺在凌乱的床上。清晨阳光透过百叶窗在她脸上投下条纹状光影。她闭着眼,用手揉眼睛。然后睁开眼睛,微笑。
无论是14B还是1.3B模型,都能精准捕捉从俯拍空镜到人物特写、从闭眼揉眼到睁眼微笑的完整叙事链条,连贯性出色。
在物理真实感与材质渲染方面,模型表现扎实可靠。例如生成“高速摄影下切开柠檬”的场景时,刀刃的金属反光、柠檬汁液飞溅的瞬间动态、以及果肉切面的细腻纹理,都得到了高度逼真的还原。
运动表现是万相2.1自发布以来的核心优势。实测证实,其在处理大幅度肢体动作、物体旋转以及速度感营造上确有独到之处。例如生成“短道速滑运动员”镜头,从全景跟拍到终点前的推镜特写,人物滑行动作与镜头运动轨迹均流畅自然,富有冲击力。
更值得称道的是其先进的运镜能力。模型能够理解并实现复杂的影视级镜头语言,甚至能完成带有前景遮挡物的平移运镜,这在当前开源视频模型中实现难度颇高。
Prompt示例:低机位拍摄图书馆书架,前景书本缝隙间闪过金丝眼镜的反光。当镜头水平移过三格书架,穿灰色毛衣的男生恰好转头,看向镜头,手中悬停的棕色书本封皮。
模型生成的视频,基本实现了这种具有电影感的镜头调度与叙事节奏。
另一个突破性功能是:中文文字生成。万相2.1是全球首个能够直接生成中文文字的AI视频模型。测试中,对于笔画简单的汉字(如“福”字),模型可以较好地模拟出水墨晕染、笔划渐次成形的动态过程。
当然,该能力目前仍处于早期发展阶段,主要支持笔画较少的简单汉字,字体库也有待丰富。对于结构复杂的文字,仍可能出现字形扭曲或识别错误。但这无疑是迈向实用化的重要一步,实现了从零到一的突破。
总结来说,万相2.1在核心的语义理解、物理模拟与画面美学上表现稳健可靠。最重要的是,所有这些先进能力,现在都已向全球开发者开源开放。
如何上手:多种使用路径
对于大多数希望快速体验的用户,最便捷的途径是使用“通义万相”APP或网页版提供的14B模型服务。每日签到可获得50“灵感值”,在APP内生成一个视频还可额外获得50。生成一个专业版(14B,720P)视频仅消耗5灵感值,相当于每日可免费生成多达20个视频,配额非常慷慨。
Hugging Face平台虽提供Demo,但免费计算资源紧张,排队时间较长,体验稳定性一般,可暂作了解。
对于有高频次或商业化需求的开发者与企业团队,建议考虑接入阿里云百炼平台的API服务。其中,Plus版(对应万相2.1专业版)定价为每秒0.7元,Turbo版(对应极速版)为每秒0.24元,可按需选择。
而对于拥有8GB以上显存显卡的技术爱好者,我们强烈推荐本地部署1.3B模型。详细的部署教程与源代码均可在其GitHub官方仓库中找到。可以预见,一旦万相2.1的节点被集成进ComfyUI等主流AI工作流,其创作潜力与应用场景将得到进一步释放。
开源的意义:不止于技术
最后,让我们将视野放得更宽广。阿里在AI领域的布局已形成强大协同矩阵:通义千问系列语言模型持续保持领先,万相则补全了视频生成的关键拼图。这一系列战略动作,不仅让“阿里巴巴”成为全球AI领域无法忽视的重要力量,更在资本市场引发了积极反响。
近期阿里股价的强劲走势,并带动相关科技板块上行,其背后正是市场对其AI战略布局与迈向通用人工智能(AGI)决心的价值重估。这向世界传递了一个明确信号:中国的科技企业,在关键的人工智能赛道上,已经实现了从跟随到并跑,乃至在部分领域领跑的态势转变。
开源,是技术普惠的基石,也是生态繁荣的催化剂。将万相2.1这样的前沿模型开源,其意义远超越技术代码本身。它极大地降低了AI视频创作与创新的门槛,激发了全球开发者社区的活力,最终将加速整个AI视频应用生态的成熟与商业化落地。
未来的挑战固然众多,但此刻,我们有充分理由对以阿里、DeepSeek为代表的中国AI产业力量,抱以更坚实的信心。用开发者社区中流行的一句话来总结,或许再贴切不过:开源之神,实至名归。
