阿里AI语音转写工具精准识别方言准确率超越字节腾讯

智东西
作者 王涵
编辑 心缘
语音识别技术迎来重大突破。今日,阿里巴巴正式推出其新一代端到端语音识别大模型——Fun-ASR 1.5。作为通义千问语音识别模型家族的最新力作,此次升级不仅是性能的常规迭代,更在核心能力上实现了跨越式提升,为多语言、多方言场景下的精准转写树立了新标杆。
一、不止于听懂:30种语言与七大方言的精准捕捉
Fun-ASR 1.5最核心的突破在于其卓越的多语言与方言识别能力。该模型能够精准识别并转写包括中文、英文、日文、韩文、法文、德文、西班牙文、葡萄牙文、俄文、阿拉伯文等在内的全球30种主流语言。这一成就得益于其创新的混合专家(MoE)架构,模型能够智能调度内部“专家”网络,在识别特定语言时仅激活相关模块,从而在确保极高准确率的同时,实现了高效灵活的多语言语音识别。

▲Fun-ASR1.5在开源多语言测试集中获得多项SOTA(最优性能)
更值得称道的是,模型在跨语言混合对话场景下表现同样出色。无需任何预设,它便能自动识别并无缝切换对话中夹杂的多种语言,实现精准转写。例如,在国际会议或跨国商务交流中,面对中英文夹杂的发言,模型能流畅处理,极大提升了语音转写的实用价值。
对于中文用户,方言识别是刚需也是难点。Fun-ASR 1.5全面覆盖中文七大方言体系及二十余种地方口音。在四川话、闽南话、长沙话、苏州话等13种主流方言的识别准确率评测中,其表现均超越了Seed-ASR、Tencent-ASR等业界主流竞品。

▲Fun-ASR1.5在工业方言测试集中获得多项SOTA
此外,模型还能精准还原方言用字。例如,它能准确将上海话中的“侬”、苏州话中的“倷”(均意为“你”)转写为对应汉字,这为方言文化研究、地方媒体内容生产等提供了高质量、可直接使用的文本基础。
二、从“听清”到“听懂”:专项优化与智能后处理
在广度覆盖的基础上,Fun-ASR 1.5通过深度专项优化,实现了从“听清声音”到“听懂内容”的进化。针对中文及方言场景,基于海量真实语音数据训练,其平均字错误率相比上一代模型大幅降低56.2%,识别准确性显著提升。
一个颇具特色的专项优化是针对古诗词诵读的识别。古诗词文言语法特殊、生僻字多,且诵读时有独特的韵律和拖腔,对语音识别技术构成巨大挑战。研究团队为此专门构建了涵盖从《诗经》《楚辞》到唐宋名家作品的真人诵读语料库进行训练。内部测试显示,模型对古诗词的字符级识别准确率高达97%,这对于国学教育、有声诗词App、文化传承等领域具有重要应用价值。
为了生成可直接使用的文本,Fun-ASR 1.5强化了智能后处理能力,主要包括标点预测和文本归一化。
智能标点预测功能能根据语义上下文,自动为转写文本添加逗号、句号、问号等标点符号。例如,将口语化的“明天开会吗我想确认一下时间地点”自动转化为“明天开会吗?我想确认一下时间地点。”,使文本更符合阅读习惯。
文本归一化功能则负责将口语中的非标准表达转换为规范书写格式。无论是将“一千二百五”转为“1250”,还是将“下礼拜三”规范为“下周三”,或是将“两块五毛”写成“2.5元”,模型都能自动完成,极大减少了后期人工校对和整理的工作量。

▲智东西实测体验音频转写效果
在实际测试中,我们上传了一段背景嘈杂、带有口音的英文演讲音频。Fun-ASR 1.5不仅完整准确地转写了内容,还能根据演讲者的语气起伏,对关键语句进行智能强调处理。这种对语音情感和重点的初步理解,直接提升了会议纪要、访谈整理等场景的工作效率。
三、技术落地:直击行业痛点,推动AI实用化
长期以来,在会议、庭审、访谈等专业场景中,语音识别技术常陷入“半自动”窘境:机器转写的“草稿”需要大量人工进行纠错、分段和格式整理,效率提升有限。
Fun-ASR 1.5的优化方向正是直击这些行业痛点。通过提升多语言、多方言识别的准确率,并深度融合智能后处理能力,它旨在提供“开箱即用”的高质量转写文本,有效降低法律、教育、医疗、媒体、客服等行业引入AI语音技术的门槛与后期成本。
目前,普通用户可通过魔搭社区在线体验Fun-ASR 1.5模型,开发者则可基于阿里云百炼平台便捷调用其API服务。随着百度、科大讯飞、字节跳动等厂商的语音大模型也在持续演进,整个AI语音赛道正从技术竞赛快速走向规模化应用。作为人机交互的核心入口之一,语音识别实用性的每一次实质性飞跃,都意味着人工智能技术落地的根基更加坚实。
相关攻略
阿里通义实验室发布Fun-ASR1 5:语音识别大模型实现多语言与方言精准转写 2024年4月20日,阿里通义实验室正式推出新一代语音识别大模型Fun-ASR1 5。此次发布的模型,在“大而全”的技术路线上实现了显著突破。它基于统一的大模型架构,仅凭单一模型即可覆盖以往需要多个专用模型才能应对的复杂
想让AI教孩子学会“侬好”?新技术如何助力上海话传承?日前,由华东师范大学国际汉语文化学院与阿里巴巴团队联合发起的上海方言保护计划正式启动,希望通过构建高质量的上海方言智能语音数据库,来助力AI听懂
IT之家 3 月 16 日消息,据《西藏日报》报道,3 月 15 日,全球首个藏语大语言模型 DeepZang 在拉萨正式发布,标志着我国在民族语言 AI 领域实现从“跟跑”到“领跑”的战略性跨越,
参加活动时自曝在新剧里要完全说上海话,还要学习四川方言!拍一部剧要学习两种方言,杨紫自曝压力好大,她真的一直都在突破自己!近日杨紫又上热搜了!其一是因为她直接顶着新剧《玉兰花开君再来》里的民国微卷短
【CNMO科技消息】近日,小米电视小爱迎来重要功能更新,重点围绕方言交互、视频问答、应用商店控制等场景进行优化,进一步提升用户智能语音体验。此次更新需将小米电视系统升级至小米澎湃OS 3,并建议将电
热门专题
热门推荐
过去24小时全球主要交易所比特币流向分化明显,整体净流出5740 82枚。其中CoinbasePro流出约5457枚,币安、Gemini分别流出1023枚和504枚;而OKX则逆势录得约530枚净流入。
《魔力宝贝》中“狗洞”即“奇怪的洞窟”,位于亚留特村西南方向黄色传送石处,是12至20级玩家高效练级地点。前往路线为:从法兰城至伊尔村,向北进入哈巴鲁东边洞窟击败“熊男”,穿越后抵达亚留特村,再向西南探索即可找到入口。洞内怪物等级较高,建议携带“风地”属性水晶提升生存能力。
时隔七年,贾跃亭以CEO身份重掌法拉第未来(FF)帅印,并成功为公司注入了关键的发展动力。近期,FF累计完成了高达7000万美元的机构融资。这笔至关重要的资金,被贾跃亭定位为驱动公司机器人业务实现第一阶段战略目标的“核心粮草”。 随着资金与团队就位,贾跃亭的信心显著增强。他公开立下目标:将用两年时间
任务需修复两条水道。首先跟随指引找到NPC并进入幻境,使用号角对准壁画激活飞鸟幻影,触碰并跟随其路径即可修复第一条水道。第二条水道位于洞xue内,跟随萤火虫找到入口,重复使用号角并借助弹跳水母到达高处,跟随飞鸟完成修复。完成后可获得奖励并推进剧情。





