北大与字节开源实时长视频生成模型Helios详解

首页

AI资讯

热心网友

转载

2026-05-24

Helios是什么

在AI视频生成领域，如何兼顾生成速度与画面质量一直是核心挑战。近期，由北京大学联合字节跳动等顶尖团队共同研发的Helios模型，为这一难题提供了突破性的解决方案。这款拥有140亿参数的大模型，仅需单张H100 GPU，就能以高达19.5 FPS的实时速度生成分钟级长视频。其卓越性能并非依赖于传统的KV缓存、模型量化或因果掩码等加速手段，而是通过一系列底层架构的原创性革新，将实际计算开销成功降低至相当于13亿参数模型的水平，实现了效率与质量的兼得。

简而言之，Helios是一个功能强大的开源视频生成模型，原生支持文本生成视频、图像生成视频以及视频续写与扩展三大核心功能。它在生成效果、视频长度和推理速度方面均展现出超越当前主流方案的潜力，并且已全面开放源代码与模型权重，供研究者和开发者使用。

Helios的主要功能

文本生成视频：输入详细的文字描述，即可直接生成高质量、连贯的动态视频序列。
图像生成视频：以任意静态图片为起点，驱动并扩展出富有动感的视频内容，实现从静到动的转化。
视频生成视频：对已有视频进行智能续写、延长，或实现风格转换、内容编辑等创造性操作。
实时交互生成：支持生成过程中的动态提示词修改，用户可实时调整内容方向，实现交互式创作。
长视频稳定生成：能够稳定输出长达1440帧的超长连贯视频，真正达到“分钟级”生成长度，有效缓解画面退化问题。

Helios的技术原理

Helios之所以能实现性能突破，源于其架构中多项协同工作的核心技术。这些设计从不同维度攻克了长视频生成中的效率、一致性与质量瓶颈。

统一历史注入机制：这是Helios架构的核心。模型将已生成的历史帧与当前待去噪的噪声帧拼接为统一输入，巧妙地将一个预训练的双向理解模型转化为自回归视频生成器。历史帧被固定为时间步0（即干净条件），仅噪声帧参与去噪。这种表示法让模型能自动适配不同任务：全零历史帧对应文生视频；仅末帧非零对应图生视频；任意历史帧非零则触发视频续写。
引导式注意力设计：为高效处理拼接的混合上下文，Helios对注意力机制进行了精细化改造。在自注意力层，它分别计算历史与噪声上下文的Q/K/V，并通过头级缩放因子灵活调节历史信息权重。在交叉注意力层，文本语义仅注入噪声上下文，避免与历史帧信息重复叠加，从而解耦了条件与生成部分的统计特性。
简易抗漂移策略：针对长视频中常见的画面漂移与运动重复，Helios采用了一套简洁有效的方案。它使用相对位置编码固定时间索引；强制保留首帧作为全局视觉锚点以稳定色彩；在训练时对历史帧随机施加曝光变化、噪声或模糊等扰动，模拟推理误差累积，从数据层面提升模型对运动模式的鲁棒性。
深度压缩计算流：这是实现高效计算的关键。通过“多期记忆分块”技术，模型对远近不同的历史帧采用差异化的压缩率，从而在固定令牌预算内容纳更长历史。同时，采用“金字塔统一预测校正器”，在多层次潜空间中进行分阶段采样：先在低分辨率空间确定全局结构与运动轨迹，再于高分辨率空间细化局部细节。这套组合拳将140亿参数模型的实际计算量压缩至13亿参数模型的水平。
对抗分层蒸馏技术：为大幅减少采样步数、提升生成速度，Helios采用了创新的模型蒸馏方案。它以自回归教师模型为基准，通过分阶段反向仿真获取多尺度估计，并利用动态重噪声调度实现课程学习。最终引入对抗性后训练，使学生模型性能突破教师上限，将采样步数从常规的50步大幅压缩至仅需3步，且无需分类器引导。

Helios的项目地址

项目官网：https://pku-yuangroup.github.io/Helios-Page/
GitHub开源仓库：https://github.com/PKU-YuanGroup/Helios
HuggingFace模型库：https://huggingface.co/collections/BestWishYsh/helios
arXiv技术论文：https://arxiv.org/pdf/2603.04379

Helios的应用场景

凭借其实时、长序列、高质量的生成特性，Helios为众多行业开启了全新的内容创作与生产范式。

影视与广告创意：电影预告片、广告短片及动态故事板的制作流程将被极大加速。创作者可快速将文字剧本或概念图转化为动态视频，将传统数小时至数天的渲染周期缩短至分钟级，实现创意的高效迭代。
游戏与交互娱乐：作为先进的“世界模型”组件，Helios能实时生成无限延展的游戏场景与动态环境。这对于开放世界游戏、VR虚拟现实体验及交互式叙事而言，意味着能提供更沉浸、更丰富且连贯的视觉内容流。
社交媒体与短视频创作：技术门槛显著降低。普通用户可将一段文案或一张照片，快速转化为专业级短视频，赋能个人创作者轻松生产具有电影质感的视觉内容，提升内容吸引力。
产品设计与原型验证：设计师可利用其图生视频与视频扩展功能，将静态UI或产品设计稿迅速转化为动态演示，实时预览交互动画与使用流程，从而加速设计评审与迭代周期。

来源:https://ai-bot.cn/helios/

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：浪潮信息开源多模态基础模型Yuan3.0 Ultra详解

相关攻略

AI资讯

阿里达摩院开源具身智能大脑RynnBrain基础模型详解

RynnBrain是什么在具身智能领域，如何让机器人真正理解并适应复杂的物理世界，始终是核心挑战。近期，阿里巴巴达摩院发布了一项重要成果——开源了名为RynnBrain的具身智能大脑基础模型。这一模型实现了关键突破，首次赋予机器人接近人类的时空记忆与物理空间推理能力。具体而言，RynnBrain

热心网友

05.23

AI资讯

昆仑万维开源SkyReels-V3多模态视频生成模型详解

SkyReels-V3是什么视频创作的门槛，正在被一项新技术重新定义。最近，昆仑万维开源的SkyReels-V3，可以说在业内投下了一枚“重磅冲击波”。它不再是一个功能单一的玩具，而是一个用单一架构就能实现专业级视频创作的“多面手”。简单来说，它能让你手里的静态照片“活”起来，变成动态影像；还能智

热心网友

05.23

AI资讯

HKUDS开源AI Agent经济生存基准测试框架ClawWork详解

ClawWork是什么如果让AI去真实世界里“打工”，它能不能养活自己？香港大学数据科学实验室（HKUDS）开源的ClawWork项目，就是为了回答这个问题而生的。它本质上是一个AI Agent的“经济生存”基准测试框架，专门评估大模型在模拟真实商业环境中的“赚钱能力”。这套系统的规则很现实：给

热心网友

05.23

AI资讯

小红书开源图像编辑模型FireRed使用指南

FireRed-Image-Edit是什么在AI图像生成与编辑领域，开源模型正迅速崛起，其能力已能比肩甚至超越部分闭源方案。近期，由小红书Super Intelligence团队研发并开源的FireRed-Image-Edit模型，便是这一趋势下的杰出代表。这款基于先进扩散架构的通用图像编辑AI，

热心网友

05.23

AI资讯

蚂蚁开源全模态大模型Ming‑Flash‑Omni 2.0详解

在人工智能模型普遍追求规模与通用性的当下，开发者们迫切需要一款能够真正“看懂”图像、“听懂”声音、“读懂”文字，并能自由进行跨模态内容创作的“全能型”AI工具。近期，蚂蚁集团重磅开源的全模态大语言模型Ming-flash-omni-2 0，正将这一愿景变为现实。它不仅彻底打通了图像、视频、音频与文本

热心网友

05.23

热门推荐

AI资讯

AI Agent能力进化平台水产市场实用技能全解析

水产市场是什么在AI Agent的生态中，能力共享与协同进化是核心驱动力。水产市场（Seafood Market）正是为OpenClaw框架量身打造的AI Agent能力共享平台。你可以将其理解为AI领域的“应用商店”或“技能交易中心”，旨在实现AI能力的快速流通与组合创新。目前，平台已集成超过

热心网友

05.24

AI资讯

MeowTXT AI音视频转文字工具智能识别说话人

在信息爆炸的时代，高效地将音视频内容转化为可编辑、可检索的文字，已经成为内容创作者、研究者和职场人士的刚需。今天要聊的这款工具——MeowTXT，正是瞄准了这一痛点，它不仅仅是一个简单的转录工具，更是一个集成了智能识别、摘要和翻译的AI生产力平台。 MeowTXT是什么简单来说，MeowTXT是一

热心网友

05.24

AI资讯

开源AI Agent操作系统OpenFang自动执行完整工作流

OpenFang是什么在AI Agent领域，我们常常面临一个困境：大多数系统仍然停留在“你说一句，它动一下”的被动模式，离真正的自动化还有距离。今天要聊的OpenFang，正是在尝试打破这个局面。它是一个用Rust语言构建的开源Agent操作系统，其核心创新在于引入了“Hands”的概念——你可

热心网友

05.24

AI资讯

腾讯混元开源全模态大模型压缩工具包AngelSlim详解

AngelSlim是什么随着大模型参数规模不断增长，如何实现高效推理与低成本部署已成为开发者面临的核心挑战。腾讯混元团队推出的开源工具包AngelSlim，正是为解决这一难题而生。它是一个面向全模态大模型的综合压缩与加速解决方案，集成了量化、投机采样、稀疏化及知识蒸馏等前沿技术，旨在为各类大语言模

热心网友

05.24

AI资讯

AI音视频转录工具Transcript LOL 智能区分说话人

在信息过载的数字化时代，音频与视频内容已成为知识传递、创意表达与商业沟通的核心载体。然而，如何将这些宝贵的非结构化媒体资产，高效、精准地转化为可搜索、可分析、可编辑的文本格式，始终是内容创作者、市场研究人员、学者及商务人士的核心痛点。一款强大的AI转录工具，正是打通音视频内容价值闭环、释放生产力潜能

热心网友

05.24