ICML 2026 OmniShow：统一人物体声动作的多模态可控视频生成系统_AI热点日报

ICML 2026 OmniShow：统一人物体声动作的多模态可控视频生成系统

类型：热点整理2026-07-03

先理清一个核心问题：人、物、声音、动作——当一段视频需要同时处理这四类指令时，传统思路大多是“各管一块，再拼成一个”。OmniShow 却选择了另一条路径——它把视觉注入、音频对齐和训练路径规划融合成一个协同运作的整体，让它们从各自为战的专才，变成一支能够彼此配合的系统。这项工作由香港中文大学、字节

先理清一个核心问题：人、物、声音、动作——当一段视频需要同时处理这四类指令时，传统思路大多是“各管一块，再拼成一个”。OmniShow 却选择了另一条路径——它把视觉注入、音频对齐和训练路径规划融合成一个协同运作的整体，让它们从各自为战的专才，变成一支能够彼此配合的系统。这项工作由香港中文大学、字节跳动、莫纳什大学和香港大学联合完成，已入选 ICML 2026。

本文从一个全景视角切入：先理清这套系统要解决的核心挑战，再拆解三大创新的分工与协作，最终看到它们如何整合为一套统一的多模态可控视频生成方案。

OmniShow 将多种条件纳入同一框架，并延伸出音频驱动数字人、物体交换、视频重混等应用场景

这套系统要解决的，是一道“同时满足”的难题

它面向的任务叫 Human-Object Interaction Video Generation。简单来说：在同一段视频里，让四类条件同时成立——文本描述锚定全局语义与场景，参考图像固定人物身份与物体外观，音频驱动嘴型、表情与身体节奏，姿态提供逐帧的动作控制。它的价值不仅在于把画面做得更精美，而在于将视频变成一种可以被多条件精确调度的内容资产，直接对应电商带货、短视频口播、数字人讲解与互动娱乐。

难点恰恰在于“同时”二字。现有方法各有所长却互不兼容：R2V 能守住参考外观，但往往对声音无动于衷；A2V 能被音频驱动，却常常只认首帧、难以同时指定人与物；姿态引导方法擅长控制动作，却在复杂交互下保不住身份与音画同步；一些 HOI 方法还需要额外输入掩码、轨迹、深度、边界框，门槛陡增。把这些子系统级联起来，既臃肿又容易在交接处崩溃。OmniShow 的判断很直接——与其拼装，不如让一个模型在一个端到端的框架里学会协同。

团队把统一路上的障碍归纳为三类：可控性与画质难以两全、完整数据极其稀缺、缺少系统化评测。于是他们在 Wa ver 1.0（一个 12B MMDiT 视频生成模型）上，用三条主线逐一解决。读懂全局的关键只有一条原则：不破坏基础模型的生成先验，把每一种条件放到它最合适的位置。

OmniShow 完整流程：视觉条件注入、音频局部对齐、分阶段联合训练三者环环相扣

齿轮一：视觉条件，顺着原生接口接入

参考图像与姿态同属视觉信号，但分工不同——前者是外观的锚点，后者是逐帧的运动约束。OmniShow 复用 Wa ver 1.0 原生的 channel-concat 机制把两者统一接入：经 VAE 编码后，在时间维度新增 pseudo-frame tokens 专门承载参考图像，姿态则与含噪视频 tokens 对齐。模型面对的输入形式与原生 I2V 几乎一致，任务适应差距被压到极小。在此之上再补充一道 Reference Reconstruction Loss：pseudo-frame tokens 由同时间步加噪的参考 tokens 初始化，并被要求重建其语义细节，“保真”由此从被动约束变成模型主动追求的目标。

沿用原生 channel-concat 接口，将参考图像与姿态顺势纳入，而非另起炉灶

齿轮二：音频条件，单独配备一套局部对齐

声音是连续且含节奏的模态，硬塞进通道必然丢失同步。OmniShow 为它专门设计了门控局部上下文注意力机制：先用 Wav2Vec 2.0 融合多层特征，再以滑动窗口（窗口=5、步长=4）对齐到视频帧率，掩码注意力则约束每个潜在帧只关注对应的局部音频 tokens，建立起严格的逐帧音画对应。配套的自适应门控把门控向量初始化为接近零，让音频的影响稳步增长，不至于一上来就扰乱画面。

自适应门控显示音频信号在各模块的影响强弱，进而指导高效注入

有趣的是，门控向量顺便当了一把“探针”：通过观察门控范数，团队发现音频影响集中在双流模块，于是只在这些层注入。代价极低——模型仅增加约 2.5%，总计 12.3B；作为对比，HuMo 为音频付出了 +21.4%、体量达 17B。

齿轮三：训练范式，让“专才”先成形再融合

完整的 HOIVG 样本极其稀缺——一条样本要同时满足文本、参考图像、音频、姿态与目标视频的质量，几乎可遇不可求。OmniShow 因此构建了多层异构数据流程，把 R2V、A2V、RA2V、RAP2V 等碎片数据都盘活：从大规模以人为中心的视频池出发，经镜头分割切分，再按分辨率、美学、运动强度、OCR 等维度层层过滤。

从视频切分到多维过滤，最终组织出多类异构训练素材

训练采用先解耦后联合的策略：先分别训练 R2V 与 A2V 两个专家模型，再用权重插值合并（音频模块取自 A2V，其余按 A2V/R2V = 0.6/0.4 融合），随后在完整的 RA2V 上继续训练，姿态留到最后引入。一个意想不到的现象是：仅靠合并，模型在尚未显式训练 RA2V 之前，就已涌现出联合参考-音频能力——可控性竟然可以通过权重合并自发出现。

专家模型合并后，未经 RA2V 专门训练即展现出联合参考-音频生成能力

第四块拼图：把“评测”也补进系统

要证明三个齿轮真的协同，而非彼此拖累，就需要一把统一的尺子。团队为此构建了 HOIVG-Bench：135 个精选样本，每个都配齐详细描述、人物与物体参考、语义对齐的音频与连贯姿态，从文本对齐、参考一致性、姿态准确度、音画同步、视频质量五个维度打分，专门发现“姿态准但身份漂、嘴型对但商品变形”这类偏科现象。

HOIVG-Bench 的统计分布与样例，覆盖多条件输入

三齿咬合后，成绩是硬道理

定性来看，OmniShow 在各种条件组合下都能保持稳定的形象、自然的动作与贴合的音画，这正是“协同”而非“妥协”的直观体现。

多种条件组合下的定性对比，形象、动作与音画同步均保持稳定

定量结果分三种设置来看。R2V 设置下，NexusScore 0.389 超过 VACE（0.368）与 Phantom-14B（0.366）居首，FaceSim 0.874 紧贴体量更大的 Phantom-14B（0.876），并在 AES 0.468、VQ 11.12、MQ 5.885 三项拿下第一。RA2V 设置下，Sync-C 8.612、Sync-D 7.608 双双领先 HuMo-17B 的 8.013/8.316，FaceSim 0.810、NexusScore 0.369、AES 0.465、VQ 10.86、MQ 5.554 全面占优——加入音频后，音画同步、人物与商品的一致性、画质三者同时提升。RP2V 设置下，AKD 降至 0.174、PCK 升到 0.460，动作控制精度明显优于 VACE（0.206/0.336），NexusScore 0.418、VQ 10.28 同样保持领先。而这一切都出自一个仅 12.3B 的模型，音频模块只多花约 2.5%——这正是“系统协同”带来的性价比。

HOIVG-Bench 主实验结果，覆盖 R2V、RA2V、RP2V 等条件设置

值得一提的是，被纳入统一框架并未削弱单项专才。在专评音频驱动的 EMTD benchmark 上，OmniShow-A2V 取得 Sync-C 6.49、AES 1.51，IQA 2.26 仅次于 Hallo3——“先把专才做强，再合进系统”这条路径，没有牺牲音频驱动本身的能力。

OmniShow-A2V 在 EMTD benchmark 上的结果，印证音频驱动能力依旧扎实

一个系统，能延展成多少种玩法

因为四类条件被收进同一框架且互不干扰，它们便能自由组合：人物参考配音频，做成音频驱动数字人；物体参考配姿态，实现物体交换；把人、物、声、动作重新拼装，则得到视频重混。

统一框架延展出音频驱动数字人、物体交换、视频重混等更广泛应用

三大创新看似各守一摊，实则共享同一种工程哲学：理解基座、顺势扩展、把每个条件放对位置，再让它们彼此咬合成一个整体。当多模态可控视频生成从“加分项”变成内容生产的刚需，真正稀缺的从来不是又一个单点模型，而是一台能把人、物、声、动作同时接住、并让它们协同运转的机器——OmniShow 给出的，正是这样一个完整的系统答案。

参考文献

[1] OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

来源：https://www.ofweek.com/ai/2026-07/ART-201716-8110-30693134.html

人工智能

延伸阅读

补充最近整理过的热点入口。