11月11日,Meta基础人工智能研究(FAIR)团队正式发布"全语种自动语音识别系统"(Omnilingual ASR),该系统可支持1600多种语言的语音转写,显著拓展了当前语音识别技术的应用边界。

当前大多数语音识别工具主要面向几百种资源丰富的语言,这些语言通常具备大量转录音频数据。而全球现存的7000余种语言中,绝大多数因缺乏标注训练数据而难以获得AI技术支持。Omnilingual ASR的诞生正是为了弥合这一数字鸿沟。
据Meta透露,在其支持的1600种语言中,有500种语言首次被任何AI系统所覆盖。FAIR团队将该系统视为构建"通用语音转写系统"的重要里程碑,有望助力消除全球语言障碍,促进跨语言交流与信息普惠。
值得注意的是,系统识别精度与训练数据量呈正相关。根据Meta公布的结果,Omnilingual ASR在测试的1600种语言中,对其中78%的语言实现了低于10%的字错误率(CER);对于至少拥有10小时训练音频的语言,达到此精度标准的比例更高达95%;即便是音频时长不足10小时的"低资源语言",仍有36%实现了低于10% CER的优异表现。
为推动后续研究与应用落地,Meta同步发布了"全语种ASR语料库"——一个涵盖350种代表性不足语言的大规模转录语音数据集。该语料库采用知识共享署名许可协议(CC-BY)开放获取,旨在支持开发者与研究人员针对特定本土语言需求,构建或适配定制化的语音识别模型。
该系统的核心创新在于其"自带语言"功能,该功能基于上下文学习机制实现。借鉴大语言模型的技术思路,用户仅需提供少量配对的语音与文本样本,系统即可直接从中学习,无需重新训练或依赖高算力资源,就能轻松添加新的语言支持。
Meta表示,理论上该方法可将Omnilingual ASR的语言支持能力扩展至5400余种,远超当前行业水平。尽管对极低资源语言的识别质量尚未达到完全训练的水平,但该技术首次为众多此前完全缺乏语音识别能力的语言社区提供了可行的解决方案。
Meta以Apache 2.0开源许可协议发布Omnilingual ASR全部模型,允许研究人员与开发者自由使用、修改及商用;配套数据集则采用CC-BY协议开放。该模型家族包含从适用于低功耗设备的轻量级30亿参数版本,到追求"顶尖精度"的700亿参数版本,满足不同应用场景需求。所有模型均基于FAIR自主研发的PyTorch框架fairseq2构建。
