最近,京东数科在产业AI公开课上首次展示了自主研发的AI虚拟数字人——“AI主播”,这也是该产品的首次公开亮相。该技术方案融合2D与3D技术,结合传统方法与深度学习,仅需几分钟的人物视频素材,经过数小时训练即可生成写实风格的AI虚拟数字人。

为实现文字到语音的流畅转换,京东数科自主研发了轻量级对抗语音合成技术。该技术利用深度神经网络对多人数据进行个性化建模,从而生成丰富多样的音色与鲜明风格,甚至能够模拟人的呼吸与停顿,听感与真人相差无几。更值得注意的是,该对抗神经网络效率极高,合成1秒音频仅需0.07秒,时延仅为行业平均水平的1/3,足以支持多种场景下的实时语音合成需求。
在语音驱动视频生成环节,为让AI主播形象更加逼真,京东数科AI实验室采用对抗生成网络还原真实表情,并借助3D模型运动追踪技术确保口型准确、表情细腻、头部运动自然。为实现完美口型匹配,团队使用大量语音数据进行训练,并专门设计了鲁棒的语音特征——无论语音的音色、语言或语速如何变化,均能保持准确且连贯的口型同步。
最终,京东数科成功开发出高度还原真人形象的AI虚拟数字人“小妮”。在AI算法驱动下,只需输入文本内容,“小妮”即可根据语义实时主持,其表情、动作和语音表达均自然逼真,宛如真人。
京东数科AI实验室首席科学家薄列峰对此表示:“AI主播小妮的推出,是京东数科在多模态AI技术领域一次成功的落地应用。除了在客服、招聘等场景的应用外,我们将进一步服务内容创作者,借助AI虚拟数字人技术,将静态图文内容转化为由‘真人’讲解的短视频,满足用户对多样化呈现形式的需求,从而增强用户黏性和社区活跃度。”
