小米开源OmniVoice语音合成模型支持超600种语言性能卓越

时间：2026-05-12 14:48

2026年4月，语音合成技术领域迎来一项里程碑式的开源突破。小米下一代Kaldi团队（k2-fsa）正式发布了超大规模多语言零样本文本转语音模型OmniVoice。该模型一举将支持语言数量扩展至600种以上，创造了新的行业纪录。更为关键的是，其综合性能表现卓越：在权威中文评测集上的词错误率低至0 8

2026年4月，语音合成技术领域迎来一项里程碑式的开源突破。小米下一代Kaldi团队（k2-fsa）正式发布了超大规模多语言零样本文本转语音模型OmniVoice。该模型一举将支持语言数量扩展至600种以上，创造了新的行业纪录。更为关键的是，其综合性能表现卓越：在权威中文评测集上的词错误率低至0.84%，多项核心指标达到业界领先水平，而推理速度更是高达实时合成的40倍。这一突破性进展，为长期受技术限制的小语种保护、跨境数字内容创作等应用场景，开辟了全新的可能性。

在全球数字化进程加速与跨境服务需求激增的背景下，多语言语音合成的语言覆盖广度与合成音质，始终是制约其大规模商业化的核心挑战。以往，商用模型若能支持上百种语言已属行业顶尖水平，对于那些使用人口稀少、数字语音数据匮乏的小语种而言，实现低成本、高保真的语音合成近乎是天方夜谭。OmniVoice模型的问世，精准地填补了这一关键市场空白。

深厚积累，性能领跑

开发OmniVoice的k2-fsa团队，在语音技术领域拥有深厚的底蕴和极高的声誉。其前身主导的开源语音识别工具Kaldi，至今仍是全球学术界与工业界广泛采用的基石框架。这份长期的技术积累，为OmniVoice的卓越性能奠定了坚实基础。

那么，它的实际表现究竟有多出色？官方发布的评测数据给出了有力证明。在业界公认的Seed-TTS中文测试集上，OmniVoice的词错误率仅为0.84%。这个数字意味着极高的合成准确度，平均每合成数百个汉字，出现识别错误的字屈指可数，其语音清晰度与自然度已非常接近真人发音水准。在覆盖多语言的综合基准测试中，无论是语音相似度还是可懂度指标，OmniVoice的表现均超越了ElevenLabs v2、MiniMax等主流商业模型，整体自然度稳居行业第一梯队。

在合成效率方面，其表现同样令人印象深刻。模型的实时因子低至0.025，合成速度达到实时速度的40倍。直观来说，生成一段时长1分钟的语音，所需计算时间仅约1.5秒。这种级别的推理效率，足以轻松支撑实时语音交互、海量有声内容批量生产等对延迟极为敏感的应用需求。

零样本克隆：破解小语种与出海难题

除了顶尖的通用性能，OmniVoice最引人瞩目的特性在于其覆盖超过600种语言并具备零样本语音克隆能力。所谓“零样本”，是指模型仅需一段短至3-5秒的目标说话人语音片段，即可立即模仿该音色合成出任意支持语种的语音，无需针对该特定音色或语言进行任何额外的模型微调训练。

这项能力具有重大的实用价值。首先，它为全球众多濒危小语种的数字化记录与传承提供了革命性的工具。面对一些使用者仅存数百人的语言，传统方法难以收集足量训练数据。而现在，只需采集少数母语者几分钟的语音样本，OmniVoice便能生成该语言的大量高质量有声内容，成为构建语言文化遗产“数字基因库”的关键技术支撑。

其次，对于快速发展的跨境电商、音视频内容出海、在线教育全球化等行业，这无疑是一个强大的赋能工具。企业无需再组建覆盖众多语种的庞大专业配音团队，也无需为每一种目标语言支付高昂的定制化语音合成费用。利用OmniVoice，可以极低的成本和极快的效率，完成产品解说、广告宣传片、多媒体课程等内容的跨语言语音本地化适配，显著降低了企业全球化运营的技术与成本门槛。

开源选择：降低门槛，激活生态

值得关注的是，小米此次选择了将如此前沿的模型技术完全开源开放，而非仅提供商业API服务。这一决策在业界获得了广泛关注与积极评价。对于广大中小型企业、独立开发者及学术研究机构而言，这意味着他们无需投入数千万元级的巨额计算资源，也无需耗费巨大精力去构建覆盖数百种语言的训练数据集，便能直接获取并使用这个处于全球领先水平的多语言TTS模型。

技术门槛的显著降低，必将激发整个应用生态的创新活力。据悉，已有众多开发者计划基于OmniVoice开源模型，开发更具针对性的特色功能，例如地方方言定制合成、富有表现力的情感化语音、或是嵌入式智能设备上的轻量化多语言语音助手。可以预见，随着开源社区的持续协作与迭代优化，语音合成技术的普惠化应用进程将大幅加速，最终惠及更广泛的用户群体与行业场景。

来源：https://cxgn.cn/12227.html

多语言TTS

上一篇段建军接任沃尔沃汽车大中华区总裁兼CEO 下一篇俄亥俄州青少年AI伪造同学不雅照面临重罪指控引发监管讨论

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-07-02

小米集团辟谣官微上线，定位官方辟谣平台

小米辟谣官微6月30日正式上线，作为集团官方辟谣阵地，用户可查询辟谣声明、反馈谣言线索。账号将主动澄清网络谣言，维护合法商誉，并致力于打造权威辟谣通道，保障公众知情权与合法权益。

业界动态 · 2026-07-02

小米官方辟谣账号上线持续维护合法商誉

6月30日，小米集团的一则动态引发热议：小米辟谣官方账号，正式上线了。简单来说，小米这次将澄清谣言的工作直接推到了前台——在中央网信办违法和不良信息举报中心的指导下，小米辟谣的全新阵地宣告成立。目前，这个辟谣账号已在微博开通。用户可以通过它核实与查阅小米官方的辟谣声明，也可以反馈任何涉及小米的谣言

业界动态 · 2026-07-02

特斯拉Cybercab无驾舱量产车在奥斯汀启动L4级公开道路测试

特斯拉Cybercab量产车在奥斯汀启动L4级公开测试，彻底取消方向盘等物理控制装置。安全监督员仅观察不干预。车辆专为Robotaxi设计，搭载HW4 0与FSDV14 3 3系统，续航672公里，支持无线充电，实现全程独立驾驶。

业界动态 · 2026-07-02

鸿蒙智行回应问界M5车内异味系第三方配件所致

6月30日，针对近期网络热议的“问界M5车内异味”事件，鸿蒙智行官方小助手在社区帖子下方发布了正式回应。官方表示，已对刘先生的这辆车进行了全面检测排查。工作人员上门核查后发现，涉事车辆内部加装了大量第三方配件，包括非原厂皮质、塑胶收纳摆件、脚托、抱枕、车衣等。在拆除所有加装配件后，工作人员严格依照国

业界动态 · 2026-07-02

闫闯直言20万买电车选400V太愚蠢

2026年6月30日，微博上一则关于电动汽车高压平台技术路线的争论迅速引爆热搜。坐拥超过475万粉丝的汽车领域博主闫闯，在归还体验了4天的理想i6时，专门花费6分多钟把电量充至满格，并掷地有声地留下一句：“一点不比加油慢。”随后他补充道：“还是那句话，都这时代了，20万+电车还买400V的绝对愚蠢。