当前位置: 首页 > 科技 > 文章内容页

阿里通义Fun-ASR语音模型升级,垂直场景识别准确率提升15%

时间:2025-08-23    作者:游乐小编    

8月22日消息,阿里通义于今日正式推出新一代端到端语音识别大模型Fun-ASR。该模型在上下文感知和高精度语音转写方面实现显著突破,在家装、保险等多个行业场景中的语音识别准确率平均提升超过15%。

据了解,Fun-ASR是一款基于大语言模型驱动的语音识别算法。其依托自研语音算法,结合监督微调的Qwen3进行训练,采用前沿模型架构与先进的文本模态对齐技术,显著增强了大模型的语言理解与处理能力。

此外,该模型还集成RAG方案,支持自动化音频信息检索,最高可导入超过1000个自定义热词。基于这一功能,系统能够根据输入的音频内容,精准调用相关领域的热词库、文档及上下文记录,从而大幅提升特定场景下的关键词识别效果。

阿里通义新一代语音模型Fun-ASR再进化

为应对语音识别中常见的噪声干扰、语种混淆及生成幻觉等问题,通义团队在ASR模型训练中引入强化学习(RL)技术。该策略有效抑制了识别过程中的幻觉现象,显著提高了系统的准确率与稳定性。

值得一提的是,Fun-ASR在多种方言识别方面表现突出,尤其在四川话、粤语、闽南语等方言处理上优于同类产品。

该模型还具备出色的环境适应性,无论是远场拾音还是近场降噪,在会议室、办公区、超市乃至户外等多种复杂声学环境中,均能保持较高的识别准确率。

在训练数据方面,Fun-ASR基于上亿小时的大规模音频数据进行训练,覆盖互联网、科技、家装、畜牧、汽车等十余个垂直领域,显著提升专业术语的识别能力。

实测结果表明,Fun-ASR在保险行业的语音识别准确率提升达18%,在家装、畜牧等领域的提升幅度也稳定在15%至20%之间。

阿里通义新一代语音模型Fun-ASR再进化

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com