腾讯混元视频模型发布：14G显卡流畅生成5-10秒高清视频

11月21日消息，今日，腾讯混元大模型团队宣布开源最新视频生成模型HunyuanVideo 1 5，这是一款基于Diffusion Transformer（DiT）架构、参数为8 3B的轻量级视频生

11月21日，腾讯混元大模型团队宣布开源最新视频生成模型HunyuanVideo-1.5。这款模型基于Diffusion Transformer（DiT）架构构建，拥有83亿参数，属于轻量级视频生成解决方案，能够根据文本指令生成5-10秒的高清视频内容。

目前该模型已在“元宝”平台上线，普通用户无需配置环境即可直接体验。用户可使用两种方式生成视频：一是输入文字描述直接实现“文生视频”；二是上传图片并搭配文字指令，即可将静态图像转化为动态视频片段。

腾讯混元发布全新视频生成模型：14G消费级显卡流畅运行生成5-10秒高清视频

据介绍，HunyuanVideo-1.5具备全面的生成能力，支持中英文输入的文字生视频与图像生视频功能。

在图像生视频能力方面，该模型表现出图像与视频风格的高度一致性，生成的视频在色调、光影、场景、主体形象和细节处理等方面都能与原图保持良好匹配。

模型还具备强大的指令理解与遵循能力，能够精准实现多样化的场景需求，包括运镜控制、流畅运动轨迹、真实物理规律模拟、写实人物刻画和人物情绪表情呈现等多种复杂指令。

腾讯混元发布全新视频生成模型：14G消费级显卡流畅运行生成5-10秒高清视频
在元宝中可以通过文字和图片生成视频

同时，HunyuanVideo 1.5支持写实、动画、积木等多种视觉风格，并可在生成视频中嵌入中英文字幕，满足多样化的内容创作需求。

在画质方面，该模型可原生生成480p和720p高清视频，还能通过超分模型将画质提升至1080p电影级别。

此前，视频生成领域的开源SOTA旗舰模型参数量普遍超过200亿，部署时需要使用超过50GB显存的显卡设备。

腾讯混元发布全新视频生成模型：14G消费级显卡流畅运行生成5-10秒高清视频

HunyuanVideo 1.5定位于“开源小钢炮”，显著降低了使用门槛——仅需14GB显存的消费级显卡即可流畅运行，让每一位开发者和内容创作者都能轻松上手体验。

HunyuanVideo 1.5通过多层次技术创新，在生成效果、性能表现与模型尺寸之间取得了良好平衡。

该模型创新的SSTA注意力机制（选择性滑动分块注意力）在保证高质量生成的同时显著提升了推理效率，配合多阶段渐进式训练策略，在运动连贯性、语义遵循度等关键维度均达到商用水平。