实时流式生成音视频数字人 Hallo-Live 技术解析

首页

AI资讯

热心网友

转载

2026-05-25

本文第一作者为复旦大学博士生李淳誉，主要研究方向为视频生成扩散模型；共同一作是复旦大学硕士生李佳烨。通讯作者为复旦大学教授、上海创智学院全时导师朱思语。

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

如今，让数字人根据文本“开口说话”已不罕见，但实现如同真人般流畅、实时的对话交互，仍面临巨大挑战。核心难点在于：高质量音视频的联合生成计算负载巨大；而若为追求实时性进行激进加速，又常导致口型不同步、语音生硬、画面细节丢失等问题，严重影响用户体验。

近期，来自上海创智学院与复旦大学等机构的研究团队提出了一项创新解决方案——Hallo-Live。该方法旨在攻克实时音视频数字人生成的技术瓶颈，相关论文已于2026年4月26日发布于arXiv预印本平台。其核心创新在于融合了异步双流扩散架构与人类偏好引导的蒸馏技术。性能表现卓越：在两张NVIDIA H200 GPU上，实现了20.38 FPS的吞吐率与0.94秒的端到端延迟。相较于作为基准的教师模型Ovi，吞吐量提升高达16.0倍，延迟更是降低了99.3%。尤为关键的是，在取得如此巨大速度飞跃的同时，其生成的视觉质量与音画同步效果仍能维持在接近教师模型的水平。

论文标题：Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
论文链接：https://arxiv.org/abs/2604.23632
代码地址：https://github.com/fudan-generative-vision/Hallo-Live

^{此demo展示了Hallo-Live在动漫风格、写实人物及多说话人场景下，实时文本驱动音视频生成的实际效果。}

实时音视频数字人生成为何如此困难？

这需要从任务本质进行分析。与传统的“音频驱动数字人”（输入语音，生成对应口型视频）不同，文本驱动音视频生成要求模型同步完成两项任务：首先，需“理解”文本蕴含的人物身份、场景、情感语气乃至声学环境信息；其次，需同步生成与之匹配的流畅说话视频与自然语音流。这意味着模型不仅要分别保证画面精细度与语音自然度，还必须将口型、发音、表情及上半身微动作精准对齐在同一时间轴上，任一环节的偏差都会导致数字人表现失真。

现有研究中，如Ovi等双流扩散模型已证明，将音频流与视频流分开建模再进行跨模态融合，是一条有效的技术路径。但此类模型通常侧重于离线场景下的高质量生成，距离真正的实时交互仍有差距。研究团队在论文中指出，将其改造为流式生成系统时会遇到两大核心瓶颈：

严格因果约束导致“短视”：在流式生成中，模型通常只能依据当前及过去的音频块来生成当前视频块。然而，真人说话存在“协同发音”现象，嘴唇动作常略微领先于声音。这种严格的因果注意力机制使模型无法“预见”即将到来的语音片段，导致生成的口型动作缺乏自然的提前准备与平滑过渡。
简单少步蒸馏引发“退化”：为提升速度，常采用蒸馏技术减少模型推理步数。但粗暴的少步蒸馏易使模型输出趋向“平均化”，具体表现为视频纹理模糊、语音语调机械失去起伏，以及音画同步精度下降。

Hallo-Live 整体框架解析

Hallo-Live的训练流程分为两个关键阶段。第一阶段是双流ODE初始化：模型同时输入不同噪声级别的音视频数据块，基于单模态与跨模态的块级因果掩码训练双流扩散Transformer，确保训练阶段的可见性约束与流式推理要求一致，为后续实时生成奠定基础。

第二阶段是自回归展开与双流蒸馏：学生模型基于缓存的关键值对，以自回归方式生成完整音视频序列。随后，引入针对音频质量、视频美学及音视频同步度的奖励函数，对双流蒸馏损失进行加权优化。此举旨在将教师模型的知识与人类偏好共同“蒸馏”至步数更少的学生模型中。

其中，因果融合模块是Hallo-Live双流扩散Transformer的核心组件。视频流与音频流先各自进行单模态的块级因果自注意力计算，并注入文本条件信息；随后，通过跨模态的块级因果交叉注意力机制交换信息。特别之处在于，视频流关注音频流时，采用了一种“未来扩展”的因果掩码策略，允许当前视频块访问一小段未来的音频上下文。

关键技术一：未来扩展注意力机制

这是论文的首个创新点。研究团队观察到，若视频流仅能“看到”当前及过去的音频，模型难以模拟真人说话时那种自然的、略微提前的张口、闭口及唇齿过渡动作。为此，他们设计了一种非对称注意力机制：视频流仍聚焦于生成当前块，但在从音频流获取信息时，可额外“瞥见”未来一小段时间窗口内的音频内容。

这相当于为视频流提供了一个短暂的“语音预告”。需强调的是，被“预读”的未来音频块并非最终输出，而是一个临时的、可被后续步骤覆盖的过渡信息，因此不会损害最终生成音频的质量，却能显著提升口型动作的自然度与前瞻性。

^{直观对比：严格的块级因果注意力仅能关注当前音频，而未来扩展注意力允许视频块访问少量未来音频，从而有效改善口型同步效果。}

关键技术二：融入“人类偏好”的蒸馏策略

如果说“未来扩展注意力”解决了“看不见未来”的问题，那么人类偏好引导蒸馏旨在攻克“加速后为何会失真”的难题。传统蒸馏目标是让学生模型模仿教师模型的输出分布，但这可能将教师的一些不完美之处也一并学习。

Hallo-Live的思路更为巧妙：它将蒸馏目标从“模仿教师分布”，转向“模仿经过人类偏好奖励加权后的教师分布”。具体而言，引入了三个评估器：

VideoAlign：评估视频的美学质量及其与文本/画面的语义对齐程度。
SyncNet：专门衡量唇形与语音的同步精度。
AudioBox：评估语音的自然度与声学质量。

学生模型生成的样本会经由这些评估器打分，所得奖励分数用于重新加权蒸馏损失。从概率分布视角看，这等价于让学生模型不再单纯拟合原始教师分布，而是去逼近一个被人类偏好“修饰”过的、更优质的目标分布。该方法更像一种“奖励加权的蒸馏”，相比传统的强化学习策略优化更稳定、更直接地将质量约束注入加速过程。

实验结果：速度“断层领先”，质量稳守底线

从核心实验结果看，Hallo-Live最显著的贡献在于，首次将文本到音视频的联合生成真正推入了“实时”应用范畴。

具体数据如下：

速度表现：Hallo-Live达到了20.38 FPS的帧率与0.94秒的延迟，显著快于Ovi、LTX-2、JavisDiT及UniVerse-1等对比方法。
质量评估：在VideoAlign Overall（2.32）、Sync-C（4.72）以及多项人类评估保真度指标上，Hallo-Live的整体表现接近Ovi和LTX-2等重型教师模型，并未因大幅提速而出现明显的质量滑坡。

这组数据表明，Hallo-Live并非以牺牲质量为代价换取速度，而是在基本守住生成质量底线的前提下，将系统性能提升至可支持实时交互的水平。这对于数字人直播、实时虚拟角色扮演、交互式虚拟主持等应用场景至关重要。

意义总结与未来展望

Hallo-Live的价值不仅在于提升了生成速度，更在于展示了一条清晰可行的技术路径：如何在保持流式、因果生成框架的前提下，高效实现视频与语音的高质量联合生成。它为数字人行业提供了一种兼具高性能、可部署性与交互潜力的模型范式。

当然，该研究并非终点。论文亦指出，从指标上看，Hallo-Live在同步精度与语音质量上尚未全面超越最强的离线模型；同时，当前实验基于两张NVIDIA H200 GPU，距离在更低成本硬件上普及部署仍有优化空间。然而，若将“实现实时文本驱动音视频数字人”视作一场马拉松，Hallo-Live无疑已取得了令人瞩目的阶段性突破，为后续的研究探索与商业应用指明了前进方向。

来源:https://www.jiqizhixin.com/articles/2026-05-24

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：AI辅助撰写用户手册与产品说明书的方法与技巧下一篇：开源项目刷PR镀金乱象 vLLM项目险遭简历造假者破坏