2026年4月20日,阿里通义实验室正式发布了全新语音识别大模型——Fun-ASR1.5。该模型采用混合专家架构,单套体系即可支持30种语言、汉语七大方言体系,以及二十余种地方口音。目前,模型已在阿里云百炼平台开放使用,企业开发者可直接调用。

在多语种交互场景下,Fun-ASR1.5的突出能力在于:无需预先指定语种标签,模型即可自动完成语种识别并实现无缝切换。针对中文语音识别任务,模型依托数十万小时真实方言语音数据进行训练,整体字错误率较前代版本大幅下降56.2%。在古诗词等特殊文本识别任务中,字符级准确率已达到97%。
此外,Fun-ASR1.5还具备上下文感知能力,能够自动添加标点符号,将口语内容转换为规范的书面表达——数字、日期、金额、电话号码等常见格式化信息均可准确处理。这意味着,在会议记录、访谈整理等应用场景中,文本生成质量显著提升,人工校对工作量也随之大幅减少。这才是真正实用的技术落地场景。
