Pyramid Flow 开源AI视频生成器全新高质量版本正式发布_AI热点日报

Pyramid Flow 开源AI视频生成器全新高质量版本正式发布

类型：热点整理2026-05-30

PyramidFlow由北京大学、北京邮电大学和快手科技联合开发，是一款完全开源的AI视频生成器，可生成最长10秒的高质量视频，速度极快。其核心技术采用金字塔式分阶段生成，仅在最后阶段输出全分辨率，大幅节省计算资源。模型采用MIT许可，允许商业使用，有望挑战Runway、Sora等付费产品。

人工智能视频生成模型的竞争日趋激烈，本周又迎来一位新成员——Pyramid Flow。这款模型能够生成最高10秒的高质量视频片段，速度极快，并且完全开源。目前，市面上多数演示和用户反馈集中在10至30秒的视频片段，而Pyramid Flow的目标非常明确：加大投入，稳定输出30秒长度的视频，直接对标Sora，力争成为行业标杆。

Pyramid Flow由北京大学、北京邮电大学和快手科技的研究人员共同研发——快手正是广受好评的Kling AI视频生成器的开发者。其核心技术在于：单个AI模型分阶段生成视频，大部分阶段使用低分辨率，只有在最后时刻才输出全分辨率版本。这种“金字塔式”流程极大地节省了计算资源。

代码已开源：https://huggingface.co/rain1011/pyramid-flow-sd3，用户可以自行下载并运行模型进行推理。更令人振奋的是，Pyramid Flow采用MIT许可协议，允许商业使用，这直接挑战了Runway的Gen-3 Alpha、Luma的Dream Machine、Kling和Haulio等付费产品——对于那些每年需花费数百甚至数千美元订阅的用户而言，开源意味着巨大的成本优势。对于中小企业来说，这无疑是雪中送炭：模型虽非最强，但免费就是最大的后路。毕竟，许多小公司需要先吸引用户体验，而多模态收费模式很难扛住成本压力。

随着各大AI视频提供商争夺用户的白热化，Pyramid Flow试图为开发者、艺术家和创作者提供更高效、更灵活的视频生成能力。

官方Case

Pyramid Flow架构

当前最前沿的扩散模型和自回归模型，若想通过数据和计算规模的扩展生成逼真且时长较长的视频，面临一个核心挑战——需要建模极其庞大的时空空间，这使得训练在计算和数据层面都异常密集。

为减轻高维视频数据生成的计算负担，一种常见做法是使用VAE将原始视频像素压缩至低维潜在空间。但常规压缩率仍会导致token过多，尤其是在高分辨率样本下。于是，级联架构成为主流：先在高压缩潜在空间中生成样本，再用额外的超分辨率模型逐级上采样。

而Pyramid Flow的方法突破了级联架构的局限。其动机源于一个直观观察（如下图左）：扩散模型中初始时间步的噪声极大，信息量极低。这意味着，整个生成轨迹都运行在全分辨率上，其实并无必要。

为此，作者将原始生成轨迹重新解读为一系列金字塔阶段，每个阶段在不同尺度的压缩表示上操作（如下图右）。值得注意的是，图像金字塔在判别神经网络中早已被验证有效。团队研究了两种金字塔：帧内的空间金字塔，以及连续帧之间的时间金字塔。在这种金字塔生成轨迹中，只有最后阶段才运行全分辨率，大幅减少了早期时间步的冗余计算。

主要优点有两个：

不同金字塔阶段的生成轨迹相互关联——后续阶段从前一阶段继续生成，而非像某些级联模型那样每个阶段都从纯噪声重启。可以理解为全连接层。
不再需要为每个图像金字塔准备单独的模型，而是统一整合为一个模型进行端到端优化（简言之，直接套用数据源，无需调整格式重新适配训练）。实验证明，这大大加快了训练速度，实现也更优雅。

用通俗语言解释上述示意图：左侧是传统扩散模型以全分辨率运行，在非常嘈杂的潜在数据上耗费大量算力；右侧是作者的方法，借助流匹配（Flow Matching）的灵活性在不同分辨率的潜在数据之间插值，边生成边解压缩，计算效率显著提升。黑色箭头表示去噪轨迹，蓝色箭头表示时间条件。

Pyramidal Flow Matching

具体来说，团队为每个金字塔分辨率设计了一段分段流，它们共同构成从噪声到数据的生成过程。每个金字塔阶段内的流采用flow公式，在像素化且噪声更大的潜在数据与无像素化、更干净的潜在数据之间进行插值。所有阶段可通过单个扩散变换器（DiT）中的统一流匹配目标联合优化——无需多个独立模型，即可同时完成生成和解压缩。

推理时，每个阶段的输出经过校正高斯噪声的再噪声化处理，这有助于保持连续金字塔阶段之间概率路径的连续性。此外，团队以自回归方式生成视频，用前面生成的历史来条件预测下一段视频。由于全分辨率历史中存在大量冗余，他们使用逐步压缩的低分辨率历史作为条件，策划时间金字塔序列，进一步减少token数量、提高训练效率。空间金字塔和时间金字塔的配合，带来了显著的训练效率提升。与常用的全序列扩散相比，该方法大幅减少了训练中的视频token数量（例如，10秒241帧视频仅需≤15,360个token，而传统方法需要119,040个token），从而节约了计算资源和训练时间。确实强大——推理速度快到十几秒就能生成一个短视频，用户体验直接拉满。并发与压缩思想运用得十分巧妙。

空间复杂性

为减轻空间维度早期步骤中的冗余计算，团队在数据和压缩的低分辨率噪声之间插入流。令⊕表示不同分辨率潜在值之间的插值，设K个分辨率，每个分辨率将前一个减半，则flow可表示为：将下采样（Down）后的前一个分辨率作为输入。同时，为统一生成和解压缩超分辨率，他们需要在不同噪声水平和分辨率之间进行插值来制定概率路径——这条路径从较低分辨率的、噪声更大且像素化的潜在上采样出发，最终在更高分辨率下输出更清晰、更细粒度的结果。

通过上述公式，可以得到每个阶段从像素化噪声起点到无像素化清晰结果的过程（从上往下，上采样的输入来自下采样K+1）。

时间复杂性

团队观察到全分辨率历史条件中存在高度冗余。例如，视频中较早的帧通常只提供高级语义条件，与外观细节关系不大。这促使他们使用压缩的低分辨率历史来进行自回归视频生成。在每个金字塔阶段，生成都以压缩的低分辨率历史为条件，提高训练效率。此外，团队还设计了一种兼容的位置编码方案，在空间金字塔推理过程中进行内插值，以保证条件的空间对齐。

训练时，向历史潜在变量中添加小噪声，以减轻自回归生成中的误差积累。每一个x就是带有噪声的图片。

结果对比

文本生成视频：首先评估文本到视频的生成能力。对每个文本提示，生成一个5秒121帧的视频。总体来看，该方法超越了所有对比的开源视频生成基线。即使仅使用可公开访问的视频数据训练，它也能匹敌使用更大专有数据（如Kling和Gen-3 Alpha）的模型。不过在EvalCrafter评测中，该方法在视觉和运动质量上得分较高，但语义得分相对偏低——主要原因是使用了粗粒度的合成字幕（可参考Meta微调合成字幕的训练工作Meta Movie Gen: Media Foundation Models）。

图像到视频生成：得益于模型的自回归特性和因果注意设计，训练时每段视频的第一帧类似图像条件。给定一张图像和一个文本提示，无需额外微调，模型就能自回归地预测未来帧，为静态输入图像制作动画。下图展示了图像到视频的生成效果示例，每个示例由120个新合成帧组成，时长5秒。可以看到，模型成功预测了合理的后续运动，为图像赋予了丰富的时间动态信息。

商业许可

当然，虽然Hugging Face上提供了演示推理，但并不能直接用于构建完整应用。用户需要自己托管推理版本，这可能也需要不少开销——模型虽然“免费”，但算力可不能免费。说白了，要么购买云算力，要么自行本地部署。使用Pyramid Flow，狮门影业或其他制片厂可以微调开源版本，无需向第三方公司付费。但他们仍然需要拥有或外包开发人才和计算资源——这反而可能让与Runway等成熟AI提供商合作更具吸引力，因为这些公司已拥有现成的AI工程团队。

Pyramidal Flow Matching背后的研究团队也致力于开放性和可访问性：所有代码和模型权重将免费向公众开放，确保全球研究人员和开发者都能利用和借鉴这项工作。

总结

就目前而言，Pyramid Flow为那些想绕开封闭模型成本和限制的人们提供了一个可靠的选择，同时保持了与更商业化产品相当的视频质量。未来几个月，开发者和创作者很可能会密切关注它的进展。凭借进一步改进和优化的潜力，它很可能成为各地视频内容创作者工具箱中的必备工具。眼下，所有公司和研究人员都在争夺技术霸权和用户。而OpenAI的Sora自2024年2月首次亮相以来，除与少数早期alpha用户合作外，依然不见踪影。

来源：https://www.53ai.com/news/OpenSourceLLM/2024101367108.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

Pyramid Flow 开源AI视频生成器 全新高质量版本正式发布

相关热点

延伸阅读

Pyramid Flow 开源AI视频生成器全新高质量版本正式发布