游乐游手机版
首页/AI热点日报/热点详情

阿里重磅发布ChatAnyone实时AI人物视频生成

类型:热点整理2026-07-05
先说几个核心判断:阿里在AI视频生成领域的最新动作,确实值得关注。他们推出的ChatAnyone技术,并非只是简单的头像生成,而是旨在重新定义实时视频交互——让虚拟形象不仅拥有生动表情,还能完成上半身的自然动作。这意味着,虚拟主播、视频会议、甚至AI播客,都能因此获得更接近真人的交流体验。 核心框架

先说几个核心判断:阿里在AI视频生成领域的最新动作,确实值得关注。他们推出的ChatAnyone技术,并非只是简单的头像生成,而是旨在重新定义实时视频交互——让虚拟形象不仅拥有生动表情,还能完成上半身的自然动作。这意味着,虚拟主播、视频会议、甚至AI播客,都能因此获得更接近真人的交流体验。

核心框架:从音频输入到完整上半身动画

ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。简单来说,只需输入音频,就能生成一个具备丰富表情和完整上半身动作的虚拟形象视频。其背后的技术路径颇具新意:首先通过高效的分层运动扩散模型处理音频信号,再以分层方式分别生成面部与身体的控制信号。

阿里重磅发布ChatAnyone!实时AI人物视频生成框架

因此,这项技术备受关注的原因在于:目前市场上的同类竞品大多局限于“会动的头像”——头部动作与口型同步已非难事,但要让身体也协调运动,尤其是实现头部动作与上半身姿态的协同,一直是行业公认的技术难点。ChatAnyone的突破之处,在于它同时处理了显性运动与隐性运动信号。显性信号是我们能直接观察到的,例如嘴型变化、头部转动;隐性信号则涵盖那些细微的面部肌肉变化与表情调节。两者融合,方能呈现出更真实自然的效果。

技术创新:分层运动扩散模型与混合控制融合

技术框架分为两大阶段。第一阶段是音频到运动的映射——基于输入的语音,生成面部的控制信号与身体的运动信号。其关键在于引入了细粒度的表情控制机制,这意味着用户不仅能调节表情的风格,还能精确控制表情的强度。

第二阶段则聚焦于最终图像的生成——即包含手势在内的上半身视频。这里的创新在于引入了显式的“手部控制信号”。以往许多方法对手部的处理较为模糊,要么失真要么僵硬。ChatAnyone直接将关键点信息输入生成器,从而显著提升了手部纹理与动作的真实感。此外,专门的面部细化模块被用于增强面部细节的逼真度,让整体视觉表现更为出色。

更值得关注的是:整套系统在NVIDIA 4090显卡上可实现30fps的实时生成速率,分辨率最高可达512×768。这一性能指标对于实时交互式视频聊天的落地应用至关重要。

应用场景:不止是虚拟主播

从应用场景来看,ChatAnyone的覆盖范围相当广泛。虚拟主播与视频会议是最直观的使用案例——新闻播报、直播带货、远程会议中的虚拟形象均可轻松胜任。值得一提的是,它支持风格化控制,这意味着用户能够针对不同场景调节表情风格,实现高度个性化的动画生成。

内容创作与娱乐方向同样充满潜力。例如,生成风格化的动画角色、虚拟演唱会中的歌手形象,以及AI播客。原文中提及可以生成双主播播客,实现AI驱动的对话内容。这项功能一旦落地,很可能为内容平台的内容供给与运营模式带来新的变化与机遇。

教育培训、客户服务、营销广告等场景同样适用——虚拟教师、虚拟客服、虚拟代言人,都能让交互变得更加生动自然。从医疗健康到社交娱乐,几乎涵盖了所有需要“有温度的数字人交互”的领域。

实际表现:从音频驱动到实时交互

从演示效果来看,ChatAnyone在几个关键能力上表现突出。首先是音频驱动的上半身动画——能够生成极具表现力的数字人视频,完美支持有手或无手的不同应用场景。其次是Talking Head动画部分,口型同步的准确度很高,自然的头部姿态与面部表情配合得恰到好处。

在风格化动画方面,它不仅能处理常规角色,还能生成极具表现力的歌唱视频。这意味着对于内容创作者而言,利用音乐搭配AI虚拟形象制作视频的门槛被大幅降低。

最后是实时交互能力——在4090上实现30fps的生成速度,意味着在视频聊天场景中,延迟已经接近可接受的范围。这为“AI数字人聊天”从技术演示走向实际商业应用奠定了坚实基础。

来源:https://www.53ai.com/news/MultimodalLargeModel/2025033109821.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。