游乐游手机版
首页/AI热点日报/热点详情

智谱AI开源CogVideoX-5B视频生成模型支持RTX3060运行

类型:热点整理2026-07-04
8月28日,智谱AI开源CogVideoX-5B视频生成模型,相比2B版本在质量和视觉效果上提升,推理优化后可在RTX3060显卡运行。该模型采用3D因果VAE与专家Transformer架构,融合文本和视频嵌入,提升语义理解与连贯视频生成能力。

8月28日,智谱AI再次放出重磅消息——正式开源了CogVideoX-5B视频生成模型。相较于此前开源的CogVideoX-2B,新模型在视频生成画质与视觉表现上实现了显著提升。官方特别强调了推理性能的优化,大幅降低了运行门槛:CogVideoX-2B可以在GTX 1080Ti这类早期显卡上顺利运行,而CogVideoX-5B则能在RTX 3060这样的桌面端“甜品卡”上流畅工作。换句话说,更多开发者手中的老旧设备也能参与AI视频生成实验了。

CogVideoX本身是一个大规模DiT(扩散Transformer)模型,专为文本生成视频任务而设计。技术层面主要包含两大核心模块:一是3D因果VAE,通过将视频数据压缩到潜在空间,再在时间维度上进行解码,实现高效且连贯的视频重建;二是专家Transformer,它将文本嵌入与视频嵌入融合在一起,采用3D-RoPE作为位置编码,并利用专家自适应层归一化分别处理两种模态的数据,最后通过3D全注意力机制进行时空联合建模。这套架构显著增强了模型对文本语义的理解能力以及生成连续视频的稳定性。

下面是CogVideoX-5B与CogVideoX-2B的详细参数对比,方便大家直观了解升级点:

智谱AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行

附上相关资源链接,方便进一步研究或直接上手:

来源:https://www.1ai.net/18776.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。