Vidu S1发布实时交互视频生成时代开启_AI热点日报

Vidu S1发布实时交互视频生成时代开启

类型：热点整理2026-07-04

ViduS1是生数科技发布的实时交互视频模型，支持语音实时控制、无限时长生成、540P分辨率及25FPS实时输出，可在消费级显卡运行。用户上传图片即可创建可对话的数字角色，实现从离线生成到实时交互的范式转变。

先说一个核心观察：视频生成大模型的竞争风向正在悄然转变。过去一年，各家比拼的是分辨率多高、时长多长、动作多稳，用户输入提示词，模型吭哧吭哧算完，然后吐出一段固定长度的视频——这几乎成了行业默认流程。

但新的场景正在提出截然不同的要求。视频通话、实时陪伴、虚拟偶像、互动直播，这些场景里用户会不断提问、打断、引导角色做出新反应；而角色需要在对话中持续理解语音、调整动作、维持形象，并且把新的反馈实时呈现在画面里。换句话说，视频模型不再只负责“生成得好”，还得随时听得懂、马上有反应、长时间不掉线。

正是在这个节点上，生数科技把Vidu S1带到了实时交互这条新路线上。

在今天举行的2026全球数字经济大会上，生数科技创始人朱军正式发布了这款全新实时交互模型Vidu S1。由朱军教授的00后博士生张金涛担任负责人，团队完成了全链路研发。Vidu S1的目标很明确：让视频模型从“离线成片”走向“可对话、可响应、可持续在线的实时交互”。其核心能力包括语音实时控制视频生成内容、无限长实时生成、540P（960×540）+ 25FPS（最高支持42FPS）实时交互，以及自定义初始图像与音色。更难得的是，这套能力在消费级显卡上就能跑起来。

这意味着数字人的创建流程被彻底改写了。

过去，制作一个数字人像在完成一个小型项目：准备素材、建模或训练、再对口型、调整动作和形象，周期从几分钟到一天不等。而Vidu S1走的是纯粹的生成式路线，省去了离线建模和角色训练环节。用户只需上传一张首帧图，模型就能快速理解角色的身份、外观和风格，并在交互过程中实时生成表情、口型、动作与姿态；再结合自定义音色，角色形象和声音的统一下，整个流程变得异常轻快。

我们也提前体验了一把实际效果。比如上传一张最近爆火的负鼠表情包，简单设置后，一个会说天津话的负鼠角色就出现在了屏幕里。它不仅能接话、顺着话题往下聊，还能听懂动作指令：你让它比赞、摸鼻子、眨眼睛，它都能在画面里实时做出对应动作。

这正是Vidu S1最值得关注的地方——它不是在已有视频生成能力上做常规升级，而是为实时交互式视频模型确立了一个新的技术基准。生成质量当然重要，但仅仅是起点，能否实时交互，正在成为新的分水岭。

从离线生成到实时交互：Vidu S1定义视频生成模型新基准

从离线播放到双向互动：交互范式的根本转变

过去视频生成模式可以概括为三步：用户输入提示，模型推理计算，然后一次性输出一段音视频。这套逻辑本质上是一次性内容交付，用户在生成过程中没有介入和修改的空间。

但Vidu S1想改写这个规则。它支持通过语音甚至摄像头画面与角色进行实时对话。用户说一句话，模型立刻理解语义并同步生成对应的视觉反馈——注意，这不是先生成完整视频再播放，而是像视频通话一样，边理解、边生成、边输出。用户随时改变指令，模型也会随之调整下一步的画面内容，不需要重新发起一次生成请求。

值得一提的是，Vidu S1还具备一定程度的场景理解能力：当用户开启摄像头，模型能识别画面中的人物数量、动作状态等信息，并据此给出实时反馈。这让交互不再局限于对话本身，也延伸到了对物理环境的感知。

语音指令实时跟随：不只是驱动嘴型，而是驱动行为

数字人技术发展到今天，多数产品仍停留在“音频驱动口型”阶段。这种方式的局限很明显：动作数量有限，组合痕迹明显，用户很容易感觉到这是被安排好的表演，而不是真实的即时反应。

Vidu S1采用实时视频生成技术架构，让模型不仅能听清语音内容，更能听懂语义和情绪，并实时生成与之匹配的表情、手势乃至完整的肢体动作——注意，不是从固定动作库里调用现成片段，而是原生地生成。这背后是自回归扩散模型（AR + Diffusion）路线：模型并非一次性产出完整片段，而是基于已生成的历史画面，结合用户当前的语音、指令等上下文信息，实时预测并生成下一帧内容。这种逐帧生成的方式，天然具备可被实时打断和改写的特性。

语音指令实时跟随。从「语音驱动口型」迈向「语音驱动行为」，让角色听得懂、动得准、反馈更自然

实时生成无限时长。全球领先的无限时长，实时互动视频大模型

无限时长实时生成

除了交互式实时生成，Vidu S1还首次实现了无限时长的实时视频生成。即使连续生成数小时，画面仍能保持稳定，不会快速漂移或崩坏。实现长时间连续互动，仅仅“持续生成”还不够，模型还需要在长时间运行中同时保持角色身份稳定、动作自然连贯，并持续接收用户指令、实时做出响应。Vidu S1在这几点上都做到了，率先实现了无限时长的生成式视频互动。

540P+25FPS背后：实时交互拼的是模型与系统协同

在实时交互场景下，分辨率和帧率是直接决定用户体验是否流畅的关键门槛。视频通话、直播互动这类场景对模型的要求是持续输出、快速响应，并且在长时间运行中保持帧率稳定——任何一次卡顿或延迟都会被用户直接感知。

Vidu S1给出的答案是540P（960×540）分辨率、25FPS帧率（最高支持42FPS）的实时生成能力，在同类实时交互方案中处于行业前列。

540P + 25 FPS 实时交互。支持 540P + 25 FPS 的高分辨率实时视频互动生成（最高支持 42 FPS）

要实现这样的指标，背后离不开模型架构和系统工程两个层面的协同优化。在模型侧，Vidu S1基于生数科技的TurboDiffusion推理加速框架，通过少步生成、低比特注意力SageAttention、稀疏注意力SLA和SpargeAttention等技术，大幅降低单帧生成所需的计算成本，在消费级显卡上就能跑起来。在系统侧，Vidu S1基于TurboServe推理部署引擎，实现高效的推理请求调度，持续记录用户输入、角色状态和历史画面，并根据交互状态动态调度计算资源。

这种协同优化，让Vidu S1实现了从“把视频生成得更快”，到“让视频持续在线、稳定输出、实时响应”的关键跨越。

540P + 25FPS（最高支持42FPS）让实时视频生成模型具备了进入视频通话、直播、实时陪伴、互动游戏乃至XR场景的基础能力门槛。这些场景对延迟稳定性和长时间在线能力的要求，是传统离线生成模型完全无法满足的。

自定义角色：支持任意图片与音色进行数字人创建

用户在体验页面中可以上传图片创建自己的角色。无论是真人形象、动漫人物、萌宠，还是游戏角色和其他虚拟形象，都可以作为初始角色使用；声音层面，用户也可以选择系统音色，或录制自己的声音进行定制。普通用户可以用宠物、插画或自创人物生成互动角色；企业则可以通过API，将品牌IP、虚拟客服、数字主播、游戏NPC或教育陪练接入自己的业务。

一手测试：女孩、学长、狐妖、蒙娜丽莎，都被Vidu S1「唤醒」了

更重要的是，Vidu S1已经开放试玩，支持自定义初始图像实时互动，同时开放了API平台。实际效果如何？我们亲自上手体验了一番。

首先从预置角色开始测试。选定角色后，通过麦克风直接发出语音指令，角色会在画面中实时回应，并根据对话内容实时生成表情、口型和动作反馈。比如当我们要求“举起网球拍”时，数字人自然调整身体姿态，抬手完成挥拍动作。

又比如，发出“双手放在胸前比&心”的指令后，数字人响应很快，手部位置、身体姿态和表情衔接都比较自然。语音在这里已经延伸为角色行为生成的控制信号。

在闲聊场景中，数字人回应时语气自然，节奏与真实交流相符，会顺着用户的问题继续展开，也会根据语境调整表情和状态。这种自然接话的能力，让角色更有在场感。我们临时提出推眼镜、撩头发等更细的动作要求，也都较好地完成了。

一个角色展现出了极高的交互智能与情绪感知力：不仅对答如流、转承自然，更能主动引导话题、避免冷场，对随机提出的开放性问题应对自如。在指令执行层面，对“比&心”“施法”等动态指令完成度极高；在情感表达上，“生气”等微表情的管理也十分精准到位。

除了预置角色，Vidu S1也支持用户上传图片创建自己的角色。创建过程中，用户可以直接选择系统提供的预置音色，也可以录制自己的声音，让角色在视觉形象和声音上都具备更强的个性化特征。更让人意外的是创建速度：上传图片并完成基础设置后，新角色几乎可以立即进入对话状态。

最后，我们上传了一张《蒙娜丽莎》的图片进行测试。进入通话后，画面中的蒙娜丽莎不再只是保持经典微笑，而是可以根据语音输入开口说话，并在对话过程中生成口型、表情和轻微动作反馈，无论是抬手动作还是生气时的表情和语气，都非常自然。

自定义角色可以覆盖真人、动漫、萌宠等常见形象。对于内容创作者来说，这类能力打开了更大的想象空间：一张历史人物画像、一幅插画、一个品牌IP，甚至一张风格化角色图，都有机会被快速变成可对话、可表演、可持续互动的数字角色。

结语：视频生成模型的下一站，是实时交互模型

过去，视频大模型主要服务于内容创作，用户关心的是视频清不清晰、够不够好看。但接下来，视频大模型会进入实时交互场景，用户开始关心模型能否实时听懂需求、能不能马上做出反应、能否长时间保持同一个角色、是否可以接入直播、陪伴、游戏和XR——这些问题，单靠传统离线视频生成无法解决。

实时交互模型让视频从播放对象变成交流对象，数字人也因此从“会说话的形象”走向“可以被语音驱动、感知环境、持续生成行为的在线角色”。这正是Vidu S1想要定义的行业位置。从率先提出钱-ViT架构，到率先发布实时交互模型，生数科技始终走在视频大模型技术演进的前沿。未来，行业竞争将不再局限于视频生成质量，而是围绕实时响应、角色一致性与长期在线能力展开。随着流式视频模型和AI Character的持续发展，数字人也将从内容生产工具，进化为下一代人机交互入口。

[1] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times.
[2] SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration.
[3] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention.
[4] SpargeAttention: Accurate and Training-free Sparse Attention Accelerating Any Model Inference.
[5] TurboServe: Serving Streaming Video Generation Efficiently and Economically.

来源：https://www.aitntnews.com/newDetail.html?newId=26852

AI新闻

延伸阅读

补充最近整理过的热点入口。