时间:2025-08-23 作者:游乐小编
8月22日消息,阿里通义于今日正式推出新一代端到端语音识别大模型Fun-ASR。该模型在上下文感知和高精度语音转写方面实现显著突破,在家装、保险等多个行业场景中的语音识别准确率平均提升超过15%。
据了解,Fun-ASR是一款基于大语言模型驱动的语音识别算法。其依托自研语音算法,结合监督微调的Qwen3进行训练,采用前沿模型架构与先进的文本模态对齐技术,显著增强了大模型的语言理解与处理能力。
此外,该模型还集成RAG方案,支持自动化音频信息检索,最高可导入超过1000个自定义热词。基于这一功能,系统能够根据输入的音频内容,精准调用相关领域的热词库、文档及上下文记录,从而大幅提升特定场景下的关键词识别效果。
为应对语音识别中常见的噪声干扰、语种混淆及生成幻觉等问题,通义团队在ASR模型训练中引入强化学习(RL)技术。该策略有效抑制了识别过程中的幻觉现象,显著提高了系统的准确率与稳定性。
值得一提的是,Fun-ASR在多种方言识别方面表现突出,尤其在四川话、粤语、闽南语等方言处理上优于同类产品。
该模型还具备出色的环境适应性,无论是远场拾音还是近场降噪,在会议室、办公区、超市乃至户外等多种复杂声学环境中,均能保持较高的识别准确率。
在训练数据方面,Fun-ASR基于上亿小时的大规模音频数据进行训练,覆盖互联网、科技、家装、畜牧、汽车等十余个垂直领域,显著提升专业术语的识别能力。
实测结果表明,Fun-ASR在保险行业的语音识别准确率提升达18%,在家装、畜牧等领域的提升幅度也稳定在15%至20%之间。
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略