阿里开源实时全双工多模态模型Wan-Streamer_AI热点日报

阿里开源实时全双工多模态模型Wan-Streamer

类型：热点整理2026-07-01

阿里达摩院开源Wan-Streamer，一种端到端实时全双工多模态基础模型。其统一因果Transformer架构整合文本、音频、视频Token，实现亚秒级双向视频交互，模型响应延迟200毫秒，端到端总延迟550毫秒，稳定输出25FPS同步音视频。支持实时打断、多模态输入理解及长对话一致性。

Wan-Streamer是什么

简单来说，Wan-Streamer是阿里达摩院开源的一个端到端实时全双工多模态基础模型。它最大的特点，就是通过一个统一的因果Transformer架构，把文本、音频、视频这些不同模态的输入输出Token全部整合到同一条因果序列里。这意味着它能实现真正的亚秒级实时双向视频交互——模型侧响应延迟只有200毫秒，端到端总延迟控制在550毫秒，稳定输出25FPS的同步音视频。听起来很抽象？没关系，接下来我们把它的方方面面拆开看。

Wan-Streamer的主要功能

实时音视频对话：支持用户与AI数字人进行双向视频通话，AI能同步输出语音和面部表情，而不是干巴巴地只说话。
全双工交互：这可不是那种“你问我答、等你说完”的半双工模式。用户可以随时打断，AI也能主动提问，对话节奏和自然度都接近真人。
多模态输入理解：真正意义上的“眼观六路耳听八方”——能同时理解用户的视频画面、语音和文字输入，信息维度更丰富。
流式分片生成：采用160ms的短时流式分片，边接收信息边生成反馈，不需要等全帧数据都拿到才开始处理。
长时序一致性：通过全局KV上下文缓存，保证在长时间对话中，数字人的人物形象、语气都能保持稳定统一，不会聊着聊着就变了一张脸。

Wan-Streamer的技术原理

当然，要实现上面的功能，技术底子必须扎实。几个关键设计值得重点关注：

统一单Transformer流式架构：把用户的画面、人声、文字输入和AI的语音、表情、字幕输出，全部交错排列成一条因果Token流。文本部分采用自回归预测，音视频部分则通过流匹配条件联合生成。
全因果技术栈设计：从编码器、解码器、VAE到注意力层，整个技术栈都遵循因果约束，只使用历史时序信息来预测下一个单元，核心块的因果注意力限制了未来Token不可见，确保了信息处理的实时性。
三段式训练流程：多任务预训练阶段混合图文语音对话数据；全双工微调阶段学习倾听、插话、停顿等交互行为；流式蒸馏阶段则将大教师模型轻量化，并采用滚动自强制策略优化小模型。
Thinker-Performer双GPU推理：一个叫Thinker，负责处理用户音视频编码与上下文更新；另一个叫Performer，负责执行流匹配音视频去噪生成。两者共享上下文，并行执行，各司其职。

如何使用Wan-Streamer

需要注意的是，截至当前，Wan-Streamer仅发布了论文与项目官网的演示Demo，完整的代码和模型权重尚未开源，所以暂时还无法进行本地部署。耐心等待后续更新吧。

Wan-Streamer的核心优势

超低延迟：模型侧200ms响应，端到端仅550ms，远低于行业普遍1秒以上的水平。你可能会问，200ms有多快？这么说吧，从一个问题脱口而出到AI开始回应，几乎在同一瞬间。
端到端一体化：单一模型完成感知、理解、生成全流程，不再需要ASR、LLM、TTS、渲染等多个模块拼凑拼接，架构简洁，问题也少。
全双工实时交互：支持边听边回应、中途打断，交互的自然度完全可以媲美真人对话。
音视频同步：语音与面部动作是同步约束生成的，不需要后期再去对齐修复，口型零错位，这才是真正意义上的“从声音到表情，一步到位”。
长对话稳定性：全局KV上下文保证了人物容貌与语气在长时间对话中不漂移，不会出现聊到一半就变了个人。

Wan-Streamer的项目地址

项目官网：https://wan-streamer.com/
arXiv技术论文：https://arxiv.org/pdf/2606.25041

Wan-Streamer的同类竞品对比

从技术指标来看，Wan-Streamer和目前市面上另一款典型产品——GPT-4o Realtime，存在不少差异。直接上一张对比表会更直观：

对比维度	Wan-Streamer	GPT-4o Realtime
开发方	阿里达摩院	OpenAI
视频输入	✅ 支持	✅ 支持
同步视频输出	✅ 数字人视频	❌ 仅语音
全双工交互	✅ 实时打断/插话	⚠️ 部分支持
端到端架构	✅ 单一Transformer	❌ ASR+LLM+TTS 拼接
模型响应延迟	200ms	230ms
端到端总延迟	~0.55s	~0.8s
渲染延迟	含端到端内	不含（仅语音）
口型同步	✅ 原生同步生成	❌ 无视频输出
长时序一致性	✅ 全局KV缓存	⚠️ 依赖外部系统
当前分辨率	192p（原型）	无视频输出

从表格能看出来，Wan-Streamer在全双工交互、视频输出与口型同步方面有明显优势，尤其在多模态视频对话的一致性上领先。当然，GPT-4o Realtime在纯语音场景下仍然有它的积累。

Wan-Streamer的应用场景

虚拟客服：银&行、电商等场景可以部署一个面对面的实时视频咨询助手，而不是冷冷的语音菜单。
直播互动：AI主播可以实时回应观众弹幕与语音提问，互动体验提升不止一个档次。
AI陪伴：情感陪伴数字人支持实时视频聊天，在远程陪伴或心理疏导领域有很大想象空间。
游戏NPC：交互式游戏角色能够与玩家进行实时视频对话，游戏沉浸感自然更强。
在线教育：AI虚拟教师进行实时视频答疑与个性化辅导，远胜于冷冰冰的文字答疑。

来源：https://ai-bot.cn/wan-streamer/

基础模型

延伸阅读

补充最近整理过的热点入口。