游乐游手机版
首页/科技数码/文章详情

Meta发布Omnilingual ASR:支持1600种语言的语音识别技术

时间:2025-11-27 21:45
meta旗下FAIR团队近日在自动语音识别领域取得突破性进展,正式推出名为Omnilingual ASR的开源多语言语音识别系统。该系统支持超过1600种语言的语音转文本功能,其中包含350种此前鲜

Meta旗下FAIR团队近日在自动语音识别领域取得重要突破,正式推出了名为Omnilingual ASR的开源多语言语音识别系统。该系统具备超过1600种语言的语音转文本能力,其中包含350种过去缺乏数字资源的语言,标志着全球语言技术覆盖范围实现了质的飞跃。

研究团队通过创新架构设计打破了传统技术瓶颈,将wav2vec 2.0语音编码器扩展至700亿参数规模,构建出能够从原始语音数据中提取多语言语义表征的基础模型。配合两种解码器变体——基于连接主分类时序(CTC)的传统架构和受大语言模型启发的Transformer解码器,系统在1600余种语言上达到行业领先水平,其中78%语言的字符错误率低于10%。

该系统的核心突破在于开创了"自带语言"(Bring Your Own Language)模式。用户只需提供5-10组音频与对应文本的示例,系统即可快速适配新语言,无需专业训练数据或高性能计算资源。这种上下文学习能力源自大语言模型的技术迁移,使低资源语言社区首次获得自主扩展语音技术的可能。

为支持不同应用场景,团队同步发布完整模型套件:包含从30亿参数的轻量级版本到700亿参数的旗舰模型,覆盖移动设备到云端服务的全场景需求。配套发布的Omnilingual ASR Corpus数据集收录350种语言的转录语音,其中多数语言此前从未被ASR系统覆盖。所有模型采用Apache 2.0开源协议,数据集遵循CC-BY许可协议。

项目构建过程中,研究团队与全球40余个语言社群展开深度合作。通过与Mozilla Common Voice、Lanfrica等组织协作,在非洲、南亚等地区采集超过20万小时语音数据,确保系统对地方变体和文化语境的适应性。特别针对无文字语言,团队开发出基于语音相似度的表征学习方法,使这些语言的识别准确率提升40%以上。

技术文档显示,700亿参数模型在长尾语言上的表现尤为突出。在非洲班图语系和南岛语族的测试中,系统字符错误率较现有最佳模型降低28%,同时推理速度提升3倍。这种性能提升得益于多任务学习框架,该框架使模型能同时从高资源语言和低资源语言中提取通用语音特征。

开源社区已涌现多个衍生应用:基于Hugging Face平台的实时转录工具支持1200种语言互译,语言探索Demo通过可视化地球仪展示模型覆盖范围,学术界则开始利用其预训练模型研究语言演化规律。研究团队强调,系统设计充分考虑伦理风险,通过差分隐私技术保护语音提供者身份信息,并建立人工审核机制防止有害内容传播。

项目正式提供完整技术报告、模型下载和交互式演示入口。开发者可通过GitHub获取代码库,学术机构可申请数据集访问权限。随着更多社区参与贡献数据,系统预计每季度更新语言支持列表,目标在2026年前实现2000种语言的全面覆盖。

来源:https://www.itbear.com.cn/html/2025-11/1016201.html
上一篇全球AI安全治理:共建智能时代6大安全防线与实施路径 下一篇大众ID.7亮相:800V超快充与超700km续航,配L2++智驾
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。