SentiPulse联合人大高瓴开源交互式3D数字人框架SentiAvatar领跑行业主流模型

时间：2026-06-29 13:37

3D数字人行业正陷入一个发展怪圈：几乎所有公司都在拼命比拼“颜值”——模型是否足够精细、渲染是否足够逼真，仿佛只要视觉上接近真人，一切问题便能迎刃而解。但一个尴尬的现实摆在那里——即便建模再精致、渲染到4K画质，也撑不起用户长期深度交互的需求。真正制约行业发展的天花板，从来不是“不像人”，而是数字

3D数字人行业正陷入一个发展怪圈：几乎所有公司都在拼命比拼“颜值”——模型是否足够精细、渲染是否足够逼真，仿佛只要视觉上接近真人，一切问题便能迎刃而解。但一个尴尬的现实摆在那里——即便建模再精致、渲染到4K画质，也撑不起用户长期深度交互的需求。

真正制约行业发展的天花板，从来不是“不像人”，而是数字人在表达层面始终未能实现与人类相似的自然流畅。很多时候，我们看到数字人嘴在动、手在挥，但肢体动作与对话语义完全脱节，面部表情和台词情绪根本不搭。这种深入骨髓的机械感和违和感，直接扼杀了建立情感联结、达成深度交互的可能性。

深入探究可知，人类日常沟通中，超过70%的信息和情绪其实都隐藏在非语言信号里——耸肩代表无奈，挑眉传递质疑，这些微小的细节才是对话的灵魂所在。但行业内目前面临三大瓶颈：一是中文对话场景的高质量数据极度匮乏，尤其是覆盖全身动作的数据集几乎空白；二是面对融合情绪的复杂表达时，模型对语义的理解能力显著下降，动作飘忽不定；三是音画节奏严重错位，动作生硬机械，与语音的重音、停顿完全对不上。

这三道枷锁，将数字人牢牢钉死在“预设脚本播放机器”这一角色上，始终无法实现从“能说话”“能动”到“懂交流”的关键跨越。正是在这一背景下，SentiPulse（思维光谱）联合中国人民大学高瓴人工智能学院推出的SentiA vatar交互式3D数字人框架，目标直指这些核心瓶颈。这是一套面向全球开源的3D动作生成完整解决方案，能让数字人跳出预设动作的束缚，实现贴合语境与情绪的自然实时交互，彻底告别“提线木偶”式的交互模式。

国内首个交互式3D数字人框架，让动作拥有“灵魂”

针对行业深层痛点，SentiA vatar打造了一套全新的3D动作生成范式。

SentiPulse 携手人大高瓴：开源交互式 3D 数字人框架 SentiA vatar，领跑行业主流模型

在数据底座层面，团队构建了SuSuInterActs数据集，围绕单一角色SUSU（22岁，温柔活泼，情感丰富）展开。该数据集包含2.1万段片段、长达37小时的多模态对话语料，覆盖同步语音、行为标注文本、全身动作与面部表情——直接填补了中文高质量数据的空白。

为了让数字人交互摆脱“脚本化”，团队在预训练阶段引入了自研的Motion Foundation Model动作基础模型，在200K+条异质动作序列（约676小时）上训练通用运动先验。这样一来，数字人的能力范围远超单纯的对话场景。

此外，SentiA vatar创新性地提出了plan-then-infill双通道并行架构：在动作生成时，将身体动作与面部表情分开处理——先规划“做什么动作”，再插入“如何逐帧执行”，让整体动作生成效果更加流畅自然。

展开来说：第一阶段，LLM语义规划器接收行为标签文本和稀疏音频Token，输出稀疏关键帧动作Token序列。为支持多轮流式连续生成，模型以前一句话的最后两个关键帧音频-动作Token对作为上下文前缀，从下一个关键帧位置续写，实现无缝的跨句过渡。第二阶段，Body Infill Transformer在相邻关键帧之间填入中间3帧，以逐帧HuBERT连续特征（768维，20FPS）作为条件信号。模型采用5帧滑动窗口，首尾帧已知，预测中间3帧（12个动作Token）。推理时使用迭代置信度解码策略（默认6步），逐步接受高置信度的预测，避免一次性预测带来的质量退化。

权威实验结果显示，SentiA vatar在SuSuInterActs和行业通用BEATv2两个数据集上，多项核心指标均达到当前国际最优水平（SOTA），性能全面领跑行业主流模型。

SentiPulse 携手人大高瓴：开源交互式 3D 数字人框架 SentiA vatar，领跑行业主流模型

在自建的SuSuInterActs测试集上，SentiA vatar的文本-动作检索召回率R@1达到了43.64%，几乎是行业次优基线的2倍。在跨数据集、跨语言的BEATv2评测集上，SentiA vatar以FGD 4.941、BC 8.078的佳绩，同时刷新了这两项指标的SOTA纪录，超越了此前的行业最优方案，充分验证了模型在跨场景、跨语言上的泛化能力。

基于这套自研的高质量数据集、动作基础模型与核心架构，SentiA vatar实现了在0.3秒内生成6秒动作序列，支持无限轮次的流式交互。换句话说，数字人可以在实时对话中持续生成连贯的动作与表情，无需等待整句结束再批量处理——这直接解决了数字人“交互卡顿”这一长期存在的行业难题。

构建认知-表达闭环，夯实“交互底座”

SentiA vatar已正式上线GitHub开源平台，面向全球科研机构与开发者全面开放，相关技术报告也已同步发布于arXiv。开发者可以基于这套开源框架，低成本打造专属的3D数字人，也可将其拓展到游戏交互、影视制作、机器人等更多应用场景。

当数字人不再是冰冷机械的交互工具——它能读懂你面部表情中的隐喻，并反馈同样稀缺的情绪价值——它就变成了一个能感知语境、理解情绪、主动表达的交互主体。下一代的“数字生命”，正从这个起点上真正诞生。

来源：https://www.ithome.com/0/937/122.htm

其他

上一篇月之暗面Kimi声明融资由公司负责发现涉嫌欺诈 下一篇中国铁塔累计承建基站超620万 5G基站超328万节省费用4300亿元

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-07-20

京东数码影音暑假装备投影仪游戏掌机AI眼镜一站购齐

京东“数码放暑价”好物榜汇聚投影仪、游戏掌机、智能眼镜等多款全品类数码好物，提供国家补贴、以旧换新最低五折优惠，覆盖宅家观影、游戏对战、出行记录等暑期场景，全方位满足多场景趣玩需求。

业界动态 · 2026-07-20

年7月出差笔记本横评：五款轻薄本选购指南

二零二六年出差轻薄本选购指南，从便携、续航、性能等八维度评测五款机型。入门级推荐华硕无畏14SE性价比高，荣耀X14均衡；中端惠普战X均衡全面，适合商务；高端联想小新Pro16GT性能最强，适合重度应用；ThinkPadX1Carbon极致轻便，适合频繁出差。

业界动态 · 2026-07-20

日本人体冰箱5分钟快速降温售价约150万日元

日本推出“人体冰箱”DoHiemonBox，外形类似自动售货机，站立式结构，底部带滚轮。内部维持15℃环境，5℃冷风吹向头颈肩背，约5分钟快速降温，10分钟缓解不适。三种制冷模式，20分钟自动关闭，耗电仅为普通立式空调一半，主要面向高温作业人员及公共场所。

业界动态 · 2026-07-20

小米米家智能茶吧机Pro立式众筹价1099元

小米米家智能茶吧机Pro立式版众筹价1099元，集即热、煮茶、消毒于一体。配备2 8英寸触控屏及小爱同学语音控制，5 5升水箱双区双出水，15秒烧开、3秒即热。10升消毒存储空间支持UVC紫外线杀菌和PTC热风烘干，附赠茶壶与分享壶。

业界动态 · 2026-07-20

年7月设计本选购五款高色准创作本深度解析

2026年设计专业笔记本选购指南推荐五款：入门华硕无畏16SE、中端惠普战X、高端YOGAAir14与ThinkPadT14p、旗舰联想小新Pro16GT。核心要点为屏幕色准、PantherLake平台AI算力及扩展性，覆盖5000至20000元以上预算。