实时流式生成音视频数字人 Hallo-Live 技术解析
本文第一作者为复旦大学博士生李淳誉,主要研究方向为视频生成扩散模型;共同一作是复旦大学硕士生李佳烨。通讯作者为复旦大学教授、上海创智学院全时导师朱思语。

如今,让数字人根据文本“开口说话”已不罕见,但实现如同真人般流畅、实时的对话交互,仍面临巨大挑战。核心难点在于:高质量音视频的联合生成计算负载巨大;而若为追求实时性进行激进加速,又常导致口型不同步、语音生硬、画面细节丢失等问题,严重影响用户体验。
近期,来自上海创智学院与复旦大学等机构的研究团队提出了一项创新解决方案——Hallo-Live。该方法旨在攻克实时音视频数字人生成的技术瓶颈,相关论文已于2026年4月26日发布于arXiv预印本平台。其核心创新在于融合了异步双流扩散架构与人类偏好引导的蒸馏技术。性能表现卓越:在两张NVIDIA H200 GPU上,实现了20.38 FPS的吞吐率与0.94秒的端到端延迟。相较于作为基准的教师模型Ovi,吞吐量提升高达16.0倍,延迟更是降低了99.3%。尤为关键的是,在取得如此巨大速度飞跃的同时,其生成的视觉质量与音画同步效果仍能维持在接近教师模型的水平。
- 论文标题:Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
- 论文链接:https://arxiv.org/abs/2604.23632
- 代码地址:https://github.com/fudan-generative-vision/Hallo-Live
此demo展示了Hallo-Live在动漫风格、写实人物及多说话人场景下,实时文本驱动音视频生成的实际效果。
实时音视频数字人生成为何如此困难?
这需要从任务本质进行分析。与传统的“音频驱动数字人”(输入语音,生成对应口型视频)不同,文本驱动音视频生成要求模型同步完成两项任务:首先,需“理解”文本蕴含的人物身份、场景、情感语气乃至声学环境信息;其次,需同步生成与之匹配的流畅说话视频与自然语音流。这意味着模型不仅要分别保证画面精细度与语音自然度,还必须将口型、发音、表情及上半身微动作精准对齐在同一时间轴上,任一环节的偏差都会导致数字人表现失真。
现有研究中,如Ovi等双流扩散模型已证明,将音频流与视频流分开建模再进行跨模态融合,是一条有效的技术路径。但此类模型通常侧重于离线场景下的高质量生成,距离真正的实时交互仍有差距。研究团队在论文中指出,将其改造为流式生成系统时会遇到两大核心瓶颈:
- 严格因果约束导致“短视”:在流式生成中,模型通常只能依据当前及过去的音频块来生成当前视频块。然而,真人说话存在“协同发音”现象,嘴唇动作常略微领先于声音。这种严格的因果注意力机制使模型无法“预见”即将到来的语音片段,导致生成的口型动作缺乏自然的提前准备与平滑过渡。
- 简单少步蒸馏引发“退化”:为提升速度,常采用蒸馏技术减少模型推理步数。但粗暴的少步蒸馏易使模型输出趋向“平均化”,具体表现为视频纹理模糊、语音语调机械失去起伏,以及音画同步精度下降。
Hallo-Live 整体框架解析
Hallo-Live的训练流程分为两个关键阶段。第一阶段是双流ODE初始化:模型同时输入不同噪声级别的音视频数据块,基于单模态与跨模态的块级因果掩码训练双流扩散Transformer,确保训练阶段的可见性约束与流式推理要求一致,为后续实时生成奠定基础。
第二阶段是自回归展开与双流蒸馏:学生模型基于缓存的关键值对,以自回归方式生成完整音视频序列。随后,引入针对音频质量、视频美学及音视频同步度的奖励函数,对双流蒸馏损失进行加权优化。此举旨在将教师模型的知识与人类偏好共同“蒸馏”至步数更少的学生模型中。
其中,因果融合模块是Hallo-Live双流扩散Transformer的核心组件。视频流与音频流先各自进行单模态的块级因果自注意力计算,并注入文本条件信息;随后,通过跨模态的块级因果交叉注意力机制交换信息。特别之处在于,视频流关注音频流时,采用了一种“未来扩展”的因果掩码策略,允许当前视频块访问一小段未来的音频上下文。
关键技术一:未来扩展注意力机制
这是论文的首个创新点。研究团队观察到,若视频流仅能“看到”当前及过去的音频,模型难以模拟真人说话时那种自然的、略微提前的张口、闭口及唇齿过渡动作。为此,他们设计了一种非对称注意力机制:视频流仍聚焦于生成当前块,但在从音频流获取信息时,可额外“瞥见”未来一小段时间窗口内的音频内容。
这相当于为视频流提供了一个短暂的“语音预告”。需强调的是,被“预读”的未来音频块并非最终输出,而是一个临时的、可被后续步骤覆盖的过渡信息,因此不会损害最终生成音频的质量,却能显著提升口型动作的自然度与前瞻性。
直观对比:严格的块级因果注意力仅能关注当前音频,而未来扩展注意力允许视频块访问少量未来音频,从而有效改善口型同步效果。
关键技术二:融入“人类偏好”的蒸馏策略
如果说“未来扩展注意力”解决了“看不见未来”的问题,那么人类偏好引导蒸馏旨在攻克“加速后为何会失真”的难题。传统蒸馏目标是让学生模型模仿教师模型的输出分布,但这可能将教师的一些不完美之处也一并学习。
Hallo-Live的思路更为巧妙:它将蒸馏目标从“模仿教师分布”,转向“模仿经过人类偏好奖励加权后的教师分布”。具体而言,引入了三个评估器:
- VideoAlign:评估视频的美学质量及其与文本/画面的语义对齐程度。
- SyncNet:专门衡量唇形与语音的同步精度。
- AudioBox:评估语音的自然度与声学质量。
学生模型生成的样本会经由这些评估器打分,所得奖励分数用于重新加权蒸馏损失。从概率分布视角看,这等价于让学生模型不再单纯拟合原始教师分布,而是去逼近一个被人类偏好“修饰”过的、更优质的目标分布。该方法更像一种“奖励加权的蒸馏”,相比传统的强化学习策略优化更稳定、更直接地将质量约束注入加速过程。
实验结果:速度“断层领先”,质量稳守底线
从核心实验结果看,Hallo-Live最显著的贡献在于,首次将文本到音视频的联合生成真正推入了“实时”应用范畴。
具体数据如下:
- 速度表现:Hallo-Live达到了20.38 FPS的帧率与0.94秒的延迟,显著快于Ovi、LTX-2、JavisDiT及UniVerse-1等对比方法。
- 质量评估:在VideoAlign Overall(2.32)、Sync-C(4.72)以及多项人类评估保真度指标上,Hallo-Live的整体表现接近Ovi和LTX-2等重型教师模型,并未因大幅提速而出现明显的质量滑坡。
这组数据表明,Hallo-Live并非以牺牲质量为代价换取速度,而是在基本守住生成质量底线的前提下,将系统性能提升至可支持实时交互的水平。这对于数字人直播、实时虚拟角色扮演、交互式虚拟主持等应用场景至关重要。
意义总结与未来展望
Hallo-Live的价值不仅在于提升了生成速度,更在于展示了一条清晰可行的技术路径:如何在保持流式、因果生成框架的前提下,高效实现视频与语音的高质量联合生成。它为数字人行业提供了一种兼具高性能、可部署性与交互潜力的模型范式。
当然,该研究并非终点。论文亦指出,从指标上看,Hallo-Live在同步精度与语音质量上尚未全面超越最强的离线模型;同时,当前实验基于两张NVIDIA H200 GPU,距离在更低成本硬件上普及部署仍有优化空间。然而,若将“实现实时文本驱动音视频数字人”视作一场马拉松,Hallo-Live无疑已取得了令人瞩目的阶段性突破,为后续的研究探索与商业应用指明了前进方向。
相关攻略
复旦大学等团队提出Hallo-Live方法,采用异步双流扩散与人类偏好引导蒸馏技术,实现文本驱动音视频数字人的实时流式生成。在两张H200GPU上达到20 38FPS吞吐量和0 94秒延迟,速度显著提升,同时保持接近基准模型的视觉质量与音画同步。该方法通过未来扩展注意力与偏好蒸馏优化,为实时交互场景提供了可行方。
数字人口型不自然常因音频驱动与唇形模型未校准。可通过校准音频采样率与延迟偏移、启用动态音素融合平滑过渡、引入喉部预备动作提升同步感、平衡分辨率与推理步数以兼顾细节与稳定性,以及绑定情感强度曲线使口型幅度贴合语境来实现优化。
美团开源商用数字人模型LongCat-Video-Avatar1 5,采用宽松MIT协议。该模型在权威评测中用户偏好胜率超越多个主流闭源模型。其核心升级包括:使用Whisper-large提升音频理解与口型同步精准度;通过多阶段数据训练优化表情、姿态与手部自然度;采用DMD等技术将推理效率提升约15倍,大幅降低使用门槛。评测显示其在多项稳定性指。
智谱清影不直接支持数字人换装或换背景。其核心功能是基于文本或图片生成全新动态视频。可通过文生视频功能,用详细提示词描述新着装与场景来生成全新内容。或利用图生视频功能,基于现有人物图片生成新背景动态。如需精确控制,可结合外部工具进行后期抠像与合成处理。
百度一镜是由慧播星升级的全场景数字人平台,基于文心大模型与多智能体系统,可自动完成从策划到生成的高拟真全流程。平台已服务超10万客户,收入达数十亿级别。下一步将重点出海,优先服务中国商家并深耕四大区域,支持多语言与主流平台,通过AI主播降低海外直播成本、提升效率。
热门专题
热门推荐
备考时错题管理常因分散无序而低效。NotionAI可构建智能错题系统:创建带AI字段的数据库自动分类错题;利用双向链接建立知识点网络,关联薄弱环节;通过侧边栏AI深度分析错因;配置基于掌握等级的间隔复习提醒;考前还能批量生成个性化复习试卷。该系统实现了错题的动态管理与高效复习。
Duck ai通过五大机制保障数据隐私:传输时匿名化处理;交互数据会话结束即销毁;禁止将用户数据用于模型训练;上传图片强制清除隐私元数据;默认数据本地存储,实现“零云端持久化”。这些措施环环相扣,最大限度减少数据暴露与留存。
豆包AI翻译中英文混合文档时,需注意文档格式支持与操作指令。关键步骤包括:上传可编辑文档并明确指定双语分区指令;网页端可锁定语言对并固化术语;移动端借助OCR处理图片文档;专业文档建议分段校准并固化术语表;还可利用侧边栏翻译控件精确设置语言对与分区模式。
闭安山寨币交易费用受多种因素影响,包括网络拥堵程度、交易类型和Gas价格设置。与以太坊主网相比,其Layer2解决方案通常能显著降低费用,但不同山寨币项目间的成本差异依然存在。用户可通过选择合适时机交易、利用费用预估工具及参与生态激励来优化成本。总体而言,闭安生态正通过技术升级持续改善交易费用体验。
在即梦AI中制作浮雕立体字,可选用内置模板快速生成,或通过结构化提示词精细控制光影与材质细节。对初步结果可利用局部重绘功能强化结构,还可结合Firefly插件生成光照贴图以提升质感,实现更真实的立体效果。





