游乐游手机版
首页/AI热点日报/热点详情

微软Azure AI语音服务虚拟人形象支持文本转视频

类型:热点整理2026-07-04
微软AzureAI语音服务推出文本到语音虚拟人功能,可将文本转化为真人说话视频,输出1080p分辨率。支持预设形象、实时或批量合成,内置创作工具,按视频时长计费,已在多个区域上线。

微软在人工智能语音领域持续发力,近日再度推出创新功能。Azure AI语音服务新增了一项引人瞩目的能力——文本到语音虚拟人,简而言之,可将一段文字直接转化为逼真的真人说话视频。今天,这项功能已正式全面上线。

该功能的官方命名为Text to Speech A vatar(文本转语音虚拟人)。开发者可以借助这一能力,为自身用户打造个性化的虚拟形象。输出视频分辨率达到1920×1080,帧率为25fps,画质清晰细腻。以下是一段官方展示视频:

微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频

这个虚拟人功能的核心亮点非常集中,具体如下:

  • 将输入文本直接转换成流畅自然的人声讲话视频,声音部分由Azure AI文本转语音引擎驱动,听感真实不生硬。
  • 提供多款预设人物形象供用户自由选择,满足不同场景需求。
  • 每个形象对应的语音同样由Azure AI文本转语音实时合成,音画高度匹配。
  • 支持两种合成模式:通过批量合成API异步生成,或者实时合成视频,灵活适配业务需求。
  • 在Speech Studio中内置了内容创建工具,即使没有编程经验,也能直接上手制作虚拟人视频。
  • 实时聊天头像工具让虚拟人对话成为可能,适用于智能客服、在线直播等交互场景。

关于定价,文本转视频服务采用直接计费方式——按生成的视频时长收费,每秒单价明确。目前该服务已在东南亚、北欧、西欧、瑞典中部、美国中南部及美国西部等区域上线。对于有全球化业务拓展需求的团队而言,这些区域的节点已能覆盖大部分应用场景。

来源:https://www.1ai.net/18509.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。