11月21日,腾讯混元大模型团队宣布开源最新视频生成模型HunyuanVideo-1.5。这款模型基于Diffusion Transformer(DiT)架构构建,拥有83亿参数,属于轻量级视频生成解决方案,能够根据文本指令生成5-10秒的高清视频内容。
目前该模型已在“元宝”平台上线,普通用户无需配置环境即可直接体验。用户可使用两种方式生成视频:一是输入文字描述直接实现“文生视频”;二是上传图片并搭配文字指令,即可将静态图像转化为动态视频片段。

据介绍,HunyuanVideo-1.5具备全面的生成能力,支持中英文输入的文字生视频与图像生视频功能。
在图像生视频能力方面,该模型表现出图像与视频风格的高度一致性,生成的视频在色调、光影、场景、主体形象和细节处理等方面都能与原图保持良好匹配。
模型还具备强大的指令理解与遵循能力,能够精准实现多样化的场景需求,包括运镜控制、流畅运动轨迹、真实物理规律模拟、写实人物刻画和人物情绪表情呈现等多种复杂指令。

在元宝中可以通过文字和图片生成视频
同时,HunyuanVideo 1.5支持写实、动画、积木等多种视觉风格,并可在生成视频中嵌入中英文字幕,满足多样化的内容创作需求。
在画质方面,该模型可原生生成480p和720p高清视频,还能通过超分模型将画质提升至1080p电影级别。
此前,视频生成领域的开源SOTA旗舰模型参数量普遍超过200亿,部署时需要使用超过50GB显存的显卡设备。

HunyuanVideo 1.5定位于“开源小钢炮”,显著降低了使用门槛——仅需14GB显存的消费级显卡即可流畅运行,让每一位开发者和内容创作者都能轻松上手体验。
HunyuanVideo 1.5通过多层次技术创新,在生成效果、性能表现与模型尺寸之间取得了良好平衡。
该模型创新的SSTA注意力机制(选择性滑动分块注意力)在保证高质量生成的同时显著提升了推理效率,配合多阶段渐进式训练策略,在运动连贯性、语义遵循度等关键维度均达到商用水平。
