首页 游戏 软件 资讯 排行榜 专题
首页
AI
SentiAvatar革新3D数字人动作生成技术

SentiAvatar革新3D数字人动作生成技术

热心网友
44
转载
2026-05-20

与3D数字人互动时,你是否曾感到一丝难以言喻的“不自然”?它的嘴唇在同步发音,表情却略显呆板;手臂虽有动作,却与对话内容缺乏关联。更常见的是,那些外观高度拟真但动作僵硬、节奏失调的数字人,很容易将用户体验带入“恐怖谷”效应。

问题的核心在于,人类的高效沟通从来不是单一维度的信息传递。一个细微的耸肩足以传达无奈,一次肯定的点头就能建立共识,而眉梢的微动则可能泄露内心的疑虑。这些由手势、身体姿态和面部表情共同构成的非语言信息网络,才是真实人际交流中不可或缺的“血肉”,承载了超过一半的沟通信息。

目前,许多3D数字人的动作生成技术仍依赖于通用动作库的机械组合,难以精准表达复杂的语义内涵和细腻的情感层次。而这种自然、连贯且富有表现力的动作生成能力,正是3D数字角色实现深度交互的灵魂:对于虚拟偶像或客服,它是建立情感连接与信任的桥梁;对于服务型机器人,它是实现人机无缝协作的基石;对于游戏与影视角色,它则是赋予其生命力和沉浸感的关键。

转机已经到来。AI初创公司SentiPulse与中国人民大学高瓴人工智能学院的研究团队联合提出了一项创新成果——SentiAvatar 3D数字人动作生成框架。这一全新范式旨在构建具备高度表现力的交互式3D数字人。基于该框架开发的虚拟角色“SUSU”,已能够实时协调语言内容、肢体动作与情绪表达,实现多模态同步输出。

目前,SentiAvatar技术框架、3D数字人SUSU角色模型及其高质量多模态动作数据集SuSuInterActs已面向全球研究者和开发者开源。

为何3D数字人显得“不真实”?三大技术瓶颈待突破

让3D数字人在实时对话中做出自然、得体的动作,看似是动画优化问题,实则涉及三个长期未被协同解决的核心挑战:

第一,高质量中文多模态数据稀缺。现有公开数据集多以英语为主,且普遍缺乏与语音精确同步的高精度面部表情数据。针对中文对话场景,包含全身动作、表情和语音的高质量对齐数据几乎处于空白状态。

第二,复合语义动作生成失真。当指令从简单的“挥手”变为“无奈地耸肩”或“兴奋地鼓掌”这类包含情感和意图的复合语义时,现有模型的生成效果往往大打折扣,导致动作与表达意图严重不符。

第三,动作与语音节奏脱节。生成的动作要么节奏单调缺乏变化,要么无法匹配语音中的重音、停顿和语速起伏,造成视听体验上的割裂感。

那么,能否让数字人既能准确理解对话的深层语义,又能生成与语音韵律严丝合缝的流畅动作?这需要从问题建模的底层进行革新。

技术本质:语义规划与韵律驱动需分层处理

现有方法在对话驱动动作生成上常面临权衡困境:全局语义对齐要求模型理解句子层面的行为意图(例如“表达质疑”),并规划出整体的动作序列;而帧级韵律对齐则要求动作的细微节奏能实时响应语音每一帧的韵律特征。这两者分别作用于句子和帧两个不同的时间尺度,强行融合到一个模型中往往导致效果不佳。

传统的共语音手势生成方法(如EMAGE、TalkShow等)倾向于将动作视为音频的直接映射,缺乏高层语义指导;而纯文本驱动的动作生成方法(如T2M-GPT、MoMask等)则完全忽略了音频信号,无法捕捉韵律对动作时序的精细影响。SentiAvatar的创新之处,正是将这两个目标解耦,采用“先规划语义,后驱动细节”的分阶段处理策略。

SentiAvatar:3D数字人动作生成的新一代解决方案

为了系统性地解决上述挑战,SentiPulse团队基于统一的SentiAvatar技术框架,打造了虚拟角色SUSU,并构建了高质量的SuSuInterActs中文多模态对话数据集。该数据集包含2.1万段高质量对话片段,总时长37小时,通过专业光学动作捕捉系统采集,围绕单一角色同步收录了语音、全身动作与面部表情数据。此外,团队在超过20万条多样化动作序列上预训练了一个动作基础模型,使其学习了丰富的通用运动先验知识。在此基础上,团队创新性地提出了“先规划,后填充”的全新架构,将句子级语义规划与帧级韵律驱动解耦,从而生成既符合高层语义意图,又在节奏上与语音高度同步的自然动作。

SuSuInterActs数据集:填补中文高质量多模态数据空白

高质量数据是模型训练的基石。现有共语音数据集主要存在两大局限:一是以英语语料为主,二是缺乏精确同步的面部表情数据,这在中文场景下制约了模型的表现。

SentiPulse团队围绕虚拟角色SUSU(设定为22岁,性格温柔活泼),从头构建了SuSuInterActs数据集。该数据集包含2.1万段片段、37小时的多模态对话数据,涵盖同步的语音、带有行为意图标注的文本、全身骨骼动作及面部表情参数。

数据构建流程分为四步:首先,利用大语言模型生成带有详细行为标注的中文对话脚本。接着,由专业动捕演员使用Nokov光学动捕系统、MANUS数据手套及iPhone ARKit进行多模态同步录制。随后进行数据清洗、对齐与后处理(统一至20FPS)。最终数据集规模达21,133条样本,总时长36.9小时,覆盖日常交流、情感陪伴、趣味问答等多种交互场景。每条样本包含四路精确同步的数据:中文对话文本(含语义标注)、语音音频(WAV格式)、全身骨骼动作(63个关节,6D旋转表示)、面部混合形状系数(51维ARKit参数)。其中,超过1.4万条包含非默认动作标注,超过9千条包含非默认表情标注。聚焦单一角色的设计,有助于模型学习更一致、更具个性化的行为风格。

动作基础模型:海量数据预训练积累通用运动先验

对话数据集的动作多样性受限于特定场景。为了突破这一限制,团队在预训练阶段引入了自研的动作基础模型,在超过20万条多样化动作序列(约676小时)上学习通用运动模式。训练数据来源广泛,包括:

其知识构建流程经过精心设计:通过挖掘基础动作动词、利用大语言模型扩展同义描述、组合模板生成复合动作指令,并引入专项运动数据,系统性地扩展了模型对动作语义的理解边界。该基础模型以Qwen-0.5B为骨干网络,词表扩展至包含2,048个动作Token和音频Token,通过文本-动作生成任务进行预训练,所有文本描述均统一为中文,确保语言空间的一致性。

核心架构:分而治之的“规划-填充”双阶段模型

基于对话生成动作的核心,在于理解高层语义并规划执行。SentiAvatar采用双通道并行架构,将身体动作与面部表情分开处理。身体动作通道由两个串联阶段构成。

1. 身体动作通道

第一阶段,大语言模型语义规划器接收带有行为标签的文本和稀疏的音频Token,输出一系列稀疏的关键帧动作Token。为支持多轮连续对话生成,模型会以前一句末尾的关键帧作为上下文,实现跨句动作的平滑过渡。

第二阶段,身体填充变换器负责在关键帧之间插入自然的中间帧。它以从音频中逐帧提取的HuBERT连续特征作为条件信号。模型采用5帧滑动窗口,已知首尾帧,预测中间3帧。推理时采用迭代置信度解码策略,逐步生成高置信度的结果,确保动作质量。

2. 面部表情通道

面部表情的动态与语音韵律高度耦合,因此无需经过句子级语义规划。面部填充变换器直接根据音频特征生成面部Token序列,再解码为面部动作参数。两个通道共享音频特征提取器,端到端延迟低,支持实时流式生成。

性能表现与实验验证:多项指标达到领先水平

在工程落地方面,SentiAvatar实现了低延迟实时生成,可在0.3秒内生成6秒的动作序列,支持流式交互,满足实时对话应用需求。

整体实验结果:在多个数据集上表现优异

实验表明,SentiAvatar在自建的SuSuInterActs测试集和公开的BEATv2数据集上均取得了当前最优或接近最优的结果。在SuSuInterActs上,其文本-动作检索召回率显著优于基线模型;FID分数大幅降低,表明生成动作的真实性更高。在跨数据集评测BEATv2上,SentiAvatar刷新了FGD和BC两项关键指标,展现了优秀的泛化能力。同时,其生成动作与语音节奏的事件同步距离也达到了最佳水平,证明其动作与语音同步性更好。

定性分析对比:SentiAvatar生成效果更自然

团队将SentiAvatar与主流3D动作生成模型进行了可视化对比。结果显示,SentiAvatar生成的动作语义正确性最高,且与音频波形在时间线上对齐得最好。其他模型或在语义理解上存在偏差,或在节奏同步上表现不足,或存在不自然的身体姿态。

消融实验:验证各模块不可或缺

架构消融实验证明,移除大语言模型规划器会导致语义理解能力大幅下降;移除填充变换器则会导致动作不连续、节奏不自然。音频条件消融实验进一步表明,连续音频特征对帧级同步至关重要,而离散音频Token有助于整体动作规划,验证了分层设计的有效性。

开源与展望:从“数字形象”到“数字生命”的演进

随着SentiAvatar框架、数据集及模型在GitHub上全面开源,SentiPulse团队期待与全球研究者和开发者共同推动3D数字人动作生成技术的发展。当前,3D数字人领域的竞争焦点正从视觉逼真度,转向更深层的认知与表达能力。未来的技术突破,将在于构建更完整的表达模型、统一的人格系统和长期的交互记忆。当数字人能够真正理解语境、表达情绪并进行主动交互时,人机关系的范式将被重塑。下一代具备认知表达能力的“数字生命”,正在从愿景走向现实。

来源:https://www.163.com/dy/article/KQ064JO00511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

SentiAvatar革新3D数字人动作生成技术
AI
SentiAvatar革新3D数字人动作生成技术

与3D数字人互动时,你是否曾感到一丝难以言喻的“不自然”?它的嘴唇在同步发音,表情却略显呆板;手臂虽有动作,却与对话内容缺乏关联。更常见的是,那些外观高度拟真但动作僵硬、节奏失调的数字人,很容易将用户体验带入“恐怖谷”效应。 问题的核心在于,人类的高效沟通从来不是单一维度的信息传递。一个细微的耸肩足

热心网友
05.20
Vidu视频慢动作与快进效果制作教程
AI
Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏

热心网友
05.20
防范Agent间接越狱攻击的工程实践可信动作清单
AI
防范Agent间接越狱攻击的工程实践可信动作清单

今天我们来深入探讨一个日益紧迫的现实挑战:当AI智能体(Agent)开始自主处理邮件、浏览网页、操作各类工具时,如何确保其行为不被恶意内容“带偏”?近期一篇题为《PlanGuard: Action-Level Guardrails for Language Agents via Reference

热心网友
05.18
阿里千问接入淘宝购物助手功能上线
科技数码
阿里千问接入淘宝购物助手功能上线

5月11日,阿里巴巴集团发布重要公告,标志着AI电商的愿景正式步入现实。其自主研发的通义千问大模型已与淘宝平台实现全面深度集成。这意味着,用户现在可以直接在千问App中通过自然语言对话,轻松完成淘宝商品的搜索、智能比价、优惠计算乃至一键下单;同时,在淘宝App内点击“千问AI购物助手”,也能即刻启用

热心网友
05.17
蛇之凝视5月25日抢先体验 魂系肉鸽动作RPG游戏上线
游戏资讯
蛇之凝视5月25日抢先体验 魂系肉鸽动作RPG游戏上线

动作RPG《Serpent’sGaze》将于5月25日在Steam开启抢先体验,支持中文。游戏融合魂系风格与肉鸽玩法,背景设定于古老荒漠,包含挑战性头目战与剧情秘密。战斗强调策略操作,提供多样武器与成长路径,关卡鼓励反复挑战。支持最多四人合作或单人探索。

热心网友
05.17

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

算力时代电力价值重估 能源如何支撑数字经济
AI
算力时代电力价值重估 能源如何支撑数字经济

近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友
05.20
智谱清影与Runway Gen3视频生成模型对比评测
AI
智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX

热心网友
05.20
通义万象制作数据可视化科技背景的实用教程
AI
通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一

热心网友
05.20
Vidu视频慢动作与快进效果制作教程
AI
Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏

热心网友
05.20
海螺AI学术论文查重降重功能实测与效果分析
AI
海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来

热心网友
05.20