12月16日,阿里巴巴旗下的通义千问宣布推出新一代通义万相2.6系列模型,该版本在专业影视制作与图像创作领域实现了突破性升级。
作为国内首个支持角色扮演功能的视频生成模型,其创新性地融合了音画同步、多镜头生成、声音驱动等核心技术,构建了当前全球功能最完整的视频生成解决方案。

通义万相在模型结构上集成了多项创新技术,能够对输入的参考视频进行多模态联合建模与学习,分析具有时序信息的主体情绪、姿态以及多角度全面的视觉特征。

同时,模型会提取音色、语速等声学特征,并在生成阶段作为参考条件进行控制,从而实现了从画面到声音的全感官、全维度一致性的保持与迁移。目前万相已可支持单人及多人的表演生成。

此次发布的万相2.6进一步提升了画质、音效、指令遵循等能力,单次视频生成长度达到了国内领先的15秒。
万相2.6还新增了角色扮演和分镜控制功能,不仅能一键生成单人、多人、人物与物象合拍的高质量视频,还能自动实现多镜头切换等专业影视任务,充分满足专业影视级场景的创作需求。
万相官网访问地址:
https://tongyi.aliyun.com/wan/
