微软Azure AI语音服务虚拟人形象支持文本转视频_AI热点日报

微软Azure AI语音服务虚拟人形象支持文本转视频

类型：热点整理2026-07-04

微软AzureAI语音服务推出文本到语音虚拟人功能，可将文本转化为真人说话视频，输出1080p分辨率。支持预设形象、实时或批量合成，内置创作工具，按视频时长计费，已在多个区域上线。

微软在人工智能语音领域持续发力，近日再度推出创新功能。Azure AI语音服务新增了一项引人瞩目的能力——文本到语音虚拟人，简而言之，可将一段文字直接转化为逼真的真人说话视频。今天，这项功能已正式全面上线。

该功能的官方命名为Text to Speech A vatar（文本转语音虚拟人）。开发者可以借助这一能力，为自身用户打造个性化的虚拟形象。输出视频分辨率达到1920×1080，帧率为25fps，画质清晰细腻。以下是一段官方展示视频：

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

这个虚拟人功能的核心亮点非常集中，具体如下：

关于定价，文本转视频服务采用直接计费方式——按生成的视频时长收费，每秒单价明确。目前该服务已在东南亚、北欧、西欧、瑞典中部、美国中南部及美国西部等区域上线。对于有全球化业务拓展需求的团队而言，这些区域的节点已能覆盖大部分应用场景。

来源：https://www.1ai.net/18509.html

补充最近整理过的热点入口。