阿里通义实验室发布Fun-ASR1.5:语音识别大模型实现多语言与方言精准转写
2024年4月20日,阿里通义实验室正式推出新一代语音识别大模型Fun-ASR1.5。此次发布的模型,在“大而全”的技术路线上实现了显著突破。它基于统一的大模型架构,仅凭单一模型即可覆盖以往需要多个专用模型才能应对的复杂识别场景。具体而言,该模型能够无缝支持全球30种主流语言的语音转写,并特别针对中文语音识别进行了深度优化。它不仅能够精准识别汉语普通话,更能全面覆盖汉语的七大方言体系,处理超过20种地方口音,甚至对古诗词吟诵这类富含韵律和文化特色的语音,也能实现高准确率的文本转写。
那么,Fun-ASR1.5的实际效果究竟如何?权威测试数据提供了有力证明。在典型的方言识别任务中,该模型的字错误率(CER)实现了高达56.2%的相对下降。这一数据意味着语音识别的准确性与鲁棒性取得了质的提升。目前,该模型已有5种方言的识别准确率突破90%大关,更有15种方言的识别准确率稳定维持在80%以上。这一系列卓越的性能指标,为在方言多样、口音复杂的实际应用环境中部署高精度语音识别服务,扫清了关键技术障碍,展现出强大的实用化潜力。
