时间:2025-08-27 作者:游乐小编
8月26日晚间,阿里云正式宣布开源全新多模态视频生成模型——通义万相 Wan2.2-S2V。该模型仅需一张静态图片和一段音频,就能生成面部表情自然、口型精准同步、肢体动作流畅的电影级数字人视频。
据官方介绍,Wan2.2-S2V 单次可生成长达分钟级别的视频,显著提升了数字人直播、影视内容制作、AI教育等多个行业的视频创作效率。
目前,该模型支持真人、卡通形象、动物及数字人等多种类型的图片输入,并兼容肖像、半身、全身等多种画面比例。用户只需上传一段音频,模型即可驱动图片中的主体完成说话、歌唱和表演等多样化动作。
此外,Wan2.2-S2V 还支持文本控制功能,用户可通过输入 Prompt 指令进一步调整视频画面,丰富主体动作与背景变化,提升视频的表现力。
例如,上传一张人物弹钢琴的图片、一段歌曲音频和描述文本,模型即可生成一段完整且富有表现力的钢琴演奏视频。生成内容不仅能保持人物形象与原图高度一致,其面部表情、口型动作也能与音频精准对齐,手指动作、力度和节奏也能完美匹配音乐节拍。
技术层面,Wan2.2-S2V 基于通义万相视频生成基础模型构建,融合了文本引导的全局运动控制与音频驱动的细粒度局部动作生成,实现了复杂场景下的音频-视频同步生成。模型引入 AdaIN 和 CrossAttention 双重控制机制,显著提升了音频控制的准确性与动态表现力。
为保障长视频生成的稳定性,Wan2.2-S2V 采用层次化帧压缩技术,大幅降低历史帧的 Token 数量,将 motion frames(历史参考帧)长度从数帧扩展至73帧,从而实现了高质量的长时序视频生成。
在模型训练方面,通义团队构建了超过60万段音视频片段的数据集,通过混合并行训练方式进行全参数优化,充分释放模型潜力。同时借助多分辨率训练策略,模型可支持多种分辨率的推理生成,满足竖屏短视频、横屏影视剧等不同场景需求。
实测数据显示,Wan2.2-S2V 在多项核心指标中表现优异,包括FID(视频质量,数值越低越好)、EFID(表情真实度,数值越低越好)、CSIM(身份一致性,数值越高越好)等,均达到同类模型的最佳水平。
阿里云透露,自今年2月起,通义万相已陆续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多类模型。截至目前,相关模型在开源社区及第三方平台的累计下载量已突破2000万。
开源地址:
GitHub:https://github.com/Wan-Video/Wan2.2
魔搭社区:https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B
HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
体验地址:
通义万相正式版:https://tongyi.aliyun.com/wanxiang/generate
阿里云百炼:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略