微软在人工智能语音领域持续发力,近日再度推出创新功能。Azure AI语音服务新增了一项引人瞩目的能力——文本到语音虚拟人,简而言之,可将一段文字直接转化为逼真的真人说话视频。今天,这项功能已正式全面上线。
该功能的官方命名为Text to Speech A vatar(文本转语音虚拟人)。开发者可以借助这一能力,为自身用户打造个性化的虚拟形象。输出视频分辨率达到1920×1080,帧率为25fps,画质清晰细腻。以下是一段官方展示视频:

这个虚拟人功能的核心亮点非常集中,具体如下:
- 将输入文本直接转换成流畅自然的人声讲话视频,声音部分由Azure AI文本转语音引擎驱动,听感真实不生硬。
- 提供多款预设人物形象供用户自由选择,满足不同场景需求。
- 每个形象对应的语音同样由Azure AI文本转语音实时合成,音画高度匹配。
- 支持两种合成模式:通过批量合成API异步生成,或者实时合成视频,灵活适配业务需求。
- 在Speech Studio中内置了内容创建工具,即使没有编程经验,也能直接上手制作虚拟人视频。
- 实时聊天头像工具让虚拟人对话成为可能,适用于智能客服、在线直播等交互场景。
关于定价,文本转视频服务采用直接计费方式——按生成的视频时长收费,每秒单价明确。目前该服务已在东南亚、北欧、西欧、瑞典中部、美国中南部及美国西部等区域上线。对于有全球化业务拓展需求的团队而言,这些区域的节点已能覆盖大部分应用场景。
