游乐游手机版
首页/AI热点日报/热点详情

Pyramid Flow 开源AI视频生成器 全新高质量版本正式发布

类型:热点整理2026-05-30
PyramidFlow由北京大学、北京邮电大学和快手科技联合开发,是一款完全开源的AI视频生成器,可生成最长10秒的高质量视频,速度极快。其核心技术采用金字塔式分阶段生成,仅在最后阶段输出全分辨率,大幅节省计算资源。模型采用MIT许可,允许商业使用,有望挑战Runway、Sora等付费产品。

人工智能视频生成模型的竞争日趋激烈,本周又迎来一位新成员——Pyramid Flow。这款模型能够生成最高10秒的高质量视频片段,速度极快,并且完全开源。目前,市面上多数演示和用户反馈集中在10至30秒的视频片段,而Pyramid Flow的目标非常明确:加大投入,稳定输出30秒长度的视频,直接对标Sora,力争成为行业标杆。

Pyramid Flow由北京大学、北京邮电大学和快手科技的研究人员共同研发——快手正是广受好评的Kling AI视频生成器的开发者。其核心技术在于:单个AI模型分阶段生成视频,大部分阶段使用低分辨率,只有在最后时刻才输出全分辨率版本。这种“金字塔式”流程极大地节省了计算资源。

代码已开源:https://huggingface.co/rain1011/pyramid-flow-sd3,用户可以自行下载并运行模型进行推理。更令人振奋的是,Pyramid Flow采用MIT许可协议,允许商业使用,这直接挑战了Runway的Gen-3 Alpha、Luma的Dream Machine、Kling和Haulio等付费产品——对于那些每年需花费数百甚至数千美元订阅的用户而言,开源意味着巨大的成本优势。对于中小企业来说,这无疑是雪中送炭:模型虽非最强,但免费就是最大的后路。毕竟,许多小公司需要先吸引用户体验,而多模态收费模式很难扛住成本压力。

随着各大AI视频提供商争夺用户的白热化,Pyramid Flow试图为开发者、艺术家和创作者提供更高效、更灵活的视频生成能力。

官方Case

Pyramid Flow架构

当前最前沿的扩散模型和自回归模型,若想通过数据和计算规模的扩展生成逼真且时长较长的视频,面临一个核心挑战——需要建模极其庞大的时空空间,这使得训练在计算和数据层面都异常密集。

为减轻高维视频数据生成的计算负担,一种常见做法是使用VAE将原始视频像素压缩至低维潜在空间。但常规压缩率仍会导致token过多,尤其是在高分辨率样本下。于是,级联架构成为主流:先在高压缩潜在空间中生成样本,再用额外的超分辨率模型逐级上采样。

而Pyramid Flow的方法突破了级联架构的局限。其动机源于一个直观观察(如下图左):扩散模型中初始时间步的噪声极大,信息量极低。这意味着,整个生成轨迹都运行在全分辨率上,其实并无必要。

为此,作者将原始生成轨迹重新解读为一系列金字塔阶段,每个阶段在不同尺度的压缩表示上操作(如下图右)。值得注意的是,图像金字塔在判别神经网络中早已被验证有效。团队研究了两种金字塔:帧内的空间金字塔,以及连续帧之间的时间金字塔。在这种金字塔生成轨迹中,只有最后阶段才运行全分辨率,大幅减少了早期时间步的冗余计算。

主要优点有两个:

  • 不同金字塔阶段的生成轨迹相互关联——后续阶段从前一阶段继续生成,而非像某些级联模型那样每个阶段都从纯噪声重启。可以理解为全连接层
  • 不再需要为每个图像金字塔准备单独的模型,而是统一整合为一个模型进行端到端优化(简言之,直接套用数据源,无需调整格式重新适配训练)。实验证明,这大大加快了训练速度,实现也更优雅。

用通俗语言解释上述示意图:左侧是传统扩散模型以全分辨率运行,在非常嘈杂的潜在数据上耗费大量算力;右侧是作者的方法,借助流匹配(Flow Matching)的灵活性在不同分辨率的潜在数据之间插值,边生成边解压缩,计算效率显著提升。黑色箭头表示去噪轨迹,蓝色箭头表示时间条件。

Pyramidal Flow Matching

具体来说,团队为每个金字塔分辨率设计了一段分段流,它们共同构成从噪声到数据的生成过程。每个金字塔阶段内的流采用flow公式,在像素化且噪声更大的潜在数据与无像素化、更干净的潜在数据之间进行插值。所有阶段可通过单个扩散变换器(DiT)中的统一流匹配目标联合优化——无需多个独立模型,即可同时完成生成和解压缩。

推理时,每个阶段的输出经过校正高斯噪声的再噪声化处理,这有助于保持连续金字塔阶段之间概率路径的连续性。此外,团队以自回归方式生成视频,用前面生成的历史来条件预测下一段视频。由于全分辨率历史中存在大量冗余,他们使用逐步压缩的低分辨率历史作为条件,策划时间金字塔序列,进一步减少token数量、提高训练效率。空间金字塔和时间金字塔的配合,带来了显著的训练效率提升。与常用的全序列扩散相比,该方法大幅减少了训练中的视频token数量(例如,10秒241帧视频仅需≤15,360个token,而传统方法需要119,040个token),从而节约了计算资源和训练时间。 确实强大——推理速度快到十几秒就能生成一个短视频,用户体验直接拉满。并发与压缩思想运用得十分巧妙。

空间复杂性

为减轻空间维度早期步骤中的冗余计算,团队在数据和压缩的低分辨率噪声之间插入流。令⊕表示不同分辨率潜在值之间的插值,设K个分辨率,每个分辨率将前一个减半,则flow可表示为:将下采样(Down)后的前一个分辨率作为输入。同时,为统一生成和解压缩超分辨率,他们需要在不同噪声水平和分辨率之间进行插值来制定概率路径——这条路径从较低分辨率的、噪声更大且像素化的潜在上采样出发,最终在更高分辨率下输出更清晰、更细粒度的结果。

通过上述公式,可以得到每个阶段从像素化噪声起点到无像素化清晰结果的过程(从上往下,上采样的输入来自下采样K+1)。

时间复杂性

团队观察到全分辨率历史条件中存在高度冗余。例如,视频中较早的帧通常只提供高级语义条件,与外观细节关系不大。这促使他们使用压缩的低分辨率历史来进行自回归视频生成。在每个金字塔阶段,生成都以压缩的低分辨率历史为条件,提高训练效率。此外,团队还设计了一种兼容的位置编码方案,在空间金字塔推理过程中进行内插值,以保证条件的空间对齐。

训练时,向历史潜在变量中添加小噪声,以减轻自回归生成中的误差积累。每一个x就是带有噪声的图片。

结果对比

文本生成视频:首先评估文本到视频的生成能力。对每个文本提示,生成一个5秒121帧的视频。总体来看,该方法超越了所有对比的开源视频生成基线。即使仅使用可公开访问的视频数据训练,它也能匹敌使用更大专有数据(如Kling和Gen-3 Alpha)的模型。不过在EvalCrafter评测中,该方法在视觉和运动质量上得分较高,但语义得分相对偏低——主要原因是使用了粗粒度的合成字幕(可参考Meta微调合成字幕的训练工作Meta Movie Gen: Media Foundation Models)。

图像到视频生成:得益于模型的自回归特性和因果注意设计,训练时每段视频的第一帧类似图像条件。给定一张图像和一个文本提示,无需额外微调,模型就能自回归地预测未来帧,为静态输入图像制作动画。下图展示了图像到视频的生成效果示例,每个示例由120个新合成帧组成,时长5秒。可以看到,模型成功预测了合理的后续运动,为图像赋予了丰富的时间动态信息。

商业许可

Pyramid Flow采用MIT许可发布,允许广泛使用,包括商业应用、修改和重新分发,只需保留版权声明( 许可证链接)。这使得Pyramid Flow对希望将其集成到专有系统中的开发者和公司极具吸引力,并可能挑战Luma AI和Runway——它们正试图通过付费API向开发者提供专有AI视频生成技术。

当然,虽然Hugging Face上提供了演示推理,但并不能直接用于构建完整应用。用户需要自己托管推理版本,这可能也需要不少开销——模型虽然“免费”,但算力可不能免费。说白了,要么购买云算力,要么自行本地部署。使用Pyramid Flow,狮门影业或其他制片厂可以微调开源版本,无需向第三方公司付费。但他们仍然需要拥有或外包开发人才和计算资源——这反而可能让与Runway等成熟AI提供商合作更具吸引力,因为这些公司已拥有现成的AI工程团队。

Pyramidal Flow Matching背后的研究团队也致力于开放性和可访问性:所有代码和模型权重将免费向公众开放,确保全球研究人员和开发者都能利用和借鉴这项工作。

总结

就目前而言,Pyramid Flow为那些想绕开封闭模型成本和限制的人们提供了一个可靠的选择,同时保持了与更商业化产品相当的视频质量。未来几个月,开发者和创作者很可能会密切关注它的进展。凭借进一步改进和优化的潜力,它很可能成为各地视频内容创作者工具箱中的必备工具。眼下,所有公司和研究人员都在争夺技术霸权和用户。而OpenAI的Sora自2024年2月首次亮相以来,除与少数早期alpha用户合作外,依然不见踪影

来源:https://www.53ai.com/news/OpenSourceLLM/2024101367108.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。