当前位置: 首页 > 科技 > 文章内容页

那些需要守护的

纸嫁衣4红丝缠

蚊子模拟器2022

寿司制作模拟器

鸡尾酒王子

修仙之百世归来

闹鬼的屋子

建造和生存工艺

大王为何独宠我手机

天天快送

阿里云通义万相Wan2.2-S2V开源：一张图生成电影级数字人视频

时间:2025-08-27 作者:游乐小编

8月26日晚间，阿里云正式宣布开源全新多模态视频生成模型——通义万相 Wan2.2-S2V。该模型仅需一张静态图片和一段音频，就能生成面部表情自然、口型精准同步、肢体动作流畅的电影级数字人视频。

据官方介绍，Wan2.2-S2V 单次可生成长达分钟级别的视频，显著提升了数字人直播、影视内容制作、AI教育等多个行业的视频创作效率。

一张图即可生成电影级数字人视频：阿里云通义万相

目前，该模型支持真人、卡通形象、动物及数字人等多种类型的图片输入，并兼容肖像、半身、全身等多种画面比例。用户只需上传一段音频，模型即可驱动图片中的主体完成说话、歌唱和表演等多样化动作。

此外，Wan2.2-S2V 还支持文本控制功能，用户可通过输入 Prompt 指令进一步调整视频画面，丰富主体动作与背景变化，提升视频的表现力。

例如，上传一张人物弹钢琴的图片、一段歌曲音频和描述文本，模型即可生成一段完整且富有表现力的钢琴演奏视频。生成内容不仅能保持人物形象与原图高度一致，其面部表情、口型动作也能与音频精准对齐，手指动作、力度和节奏也能完美匹配音乐节拍。

一张图即可生成电影级数字人视频：阿里云通义万相

技术层面，Wan2.2-S2V 基于通义万相视频生成基础模型构建，融合了文本引导的全局运动控制与音频驱动的细粒度局部动作生成，实现了复杂场景下的音频-视频同步生成。模型引入 AdaIN 和 CrossAttention 双重控制机制，显著提升了音频控制的准确性与动态表现力。

为保障长视频生成的稳定性，Wan2.2-S2V 采用层次化帧压缩技术，大幅降低历史帧的 Token 数量，将 motion frames（历史参考帧）长度从数帧扩展至73帧，从而实现了高质量的长时序视频生成。

在模型训练方面，通义团队构建了超过60万段音视频片段的数据集，通过混合并行训练方式进行全参数优化，充分释放模型潜力。同时借助多分辨率训练策略，模型可支持多种分辨率的推理生成，满足竖屏短视频、横屏影视剧等不同场景需求。

一张图即可生成电影级数字人视频：阿里云通义万相

实测数据显示，Wan2.2-S2V 在多项核心指标中表现优异，包括FID（视频质量，数值越低越好）、EFID（表情真实度，数值越低越好）、CSIM（身份一致性，数值越高越好）等，均达到同类模型的最佳水平。

阿里云透露，自今年2月起，通义万相已陆续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多类模型。截至目前，相关模型在开源社区及第三方平台的累计下载量已突破2000万。

开源地址：
GitHub：https://github.com/Wan-Video/Wan2.2
魔搭社区：https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B
HuggingFace：https://huggingface.co/Wan-AI/Wan2.2-S2V-14B

体验地址：
通义万相正式版：https://tongyi.aliyun.com/wanxiang/generate
阿里云百炼：https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215

守宫的治愈小屋闪烁之光体验服闪烁之光九游渠道服闪烁之光日服闪烁之光应用宝闪烁之光9377

首页

游戏

软件

资讯

排行榜

专题

阿里云通义万相Wan2.2-S2V开源：一张图生成电影级数字人视频

小编推荐:

相关攻略

热门推荐

热门文章