12月16日IT之家消息,阿里巴巴正式发布新一代“万相2.6”系列模型,该模型面向专业影视制作与图像创作场景进行了全面升级。全新的万相2.6是业内首个支持角色扮演功能的视频生成模型。该模型同时支持音画同步、多镜头生成及语音驱动等功能,堪称当前全球功能最为齐全的视频生成解决方案。万相2.6现已同步上线阿里云百炼平台及万相官网。

IT之家为大家梳理其最新亮点如下:
万相2.6视频生成核心升级
角色扮演功能
万物皆可入戏。万相2.6能参考输入视频中角色的外观与音色,精准实现角色扮演,并依据提示词生成单人、多人甚至人物与物品合拍的创意视频内容。
多镜头叙事
万相2.6可将用户简洁的提示词自动转换为多分镜头脚本,生成包含多个连贯镜头的叙事视频,并在多镜头间保持主体、场景等关键信息的高度一致。
自然音画同步
稳定生成多人对话场景,提供真实自然的人声表达与音质提升,还能创造出更好听的背景音乐与歌曲。
15秒长视频生成
生成视频最长可达15秒(参考生视频10秒),显著提升画面时空的内容容量,支持更完整、流畅的叙事表达。
音频驱动生成
万相2.6可根据用户输入的文本和音频,智能驱动生成视频,并实现多镜头的流畅演绎。
万相2.6文生图升级亮点
艺术风格的高度美学与可控性
精准捕捉艺术灵魂:模型对各类风格关键词理解深入,还原度更高,画面整体风格统一且完整。风格融合自然流畅:支持多种艺术风格有机融合,过渡平滑,可创作出独具一格的视觉作品。细节刻画生动丰富:对“肌理、色彩、笔触”等细节的呈现更为到位,赋予图像故事感与表现力。
真人像质感,光影细节到位
在写实人像生成中,人物神态自然、肤质真实,有效削弱了“AI感”。模型综合优化构图与光影,呈现出更具表现力的人像视角。
文字生成,图表、插画与海报设计
可依据中英文长文本内容,结合美学设计与图文协调性,精准生成海报、图文说明、信息图表等,实现内容与视觉的高度统一。
万相2.6图像生成升级亮点
图文混排输出
支持多张图片和文字一体化生成,具备逻辑推理能力,实现有层次、有逻辑的可视化叙事。
多图融合生成
支持多张图片的任意参考、组合或替换,融合多重视觉灵感,生成全新创意图像。
商誉级一致性保持
保持角色、风格或元素的高度一致,拓展商业级使用场景。
美学要素迁移
提取参考图的色彩、风格、构图等创意灵感,实现美学参考生成。
镜头和光影精准控制
可指定镜头视角、近远景及光影细节,实现对画面空间与氛围的精确调控。
