Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型
Fun-ASR1.5是什么
在语音识别领域,一个模型通吃所有场景的梦想,似乎正被阿里通义团队变为现实。他们推出的Fun-ASR1.5,正是这个梦想的最新实践。这个端到端语音识别大模型,一口气将30种语言的识别能力塞进了一个模型里,更难得的是,它深入覆盖了中文的七大方言体系及二十余种地方口音,甚至对古诗词诵读做了专项优化。其核心在于,它基于MoE架构实现了自动语种切换,用户无需预设任何标签。再加上智能标点预测与文本归一化等后处理能力,Fun-ASR1.5的目标很明确:让语音转写从“能用”彻底走向“好用”。
Fun-ASR1.5的主要功能
- 多语言识别:一个模型,覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言,堪称语言识别界的“联合国”。
- 自动语种切换:这才是亮点——无需预设语种标签,模型能自动识别并切换Code-Switching场景下的多语言混合语音,对话中英夹杂?完全没问题。
- 方言识别:覆盖七大方言体系及二十余种地方口音,并对上海话、粤语、四川话等15种高需求方言进行了重点优化。
- 古诗词识别:构建了从先秦到近代的古诗词语音-文本对齐语料库,专门支持文言诵读的精准转写,让科技为文化传承赋能。
- 智能标点预测:基于上下文语义,自动插入逗号、句号、问号等标点符号,转写结果不再是一团“字糊”。
- 文本归一化:自动将口语中凌乱的数字、日期、金额、电话等信息,转换为清晰规范的书面格式,省去大量后期整理工作。
Fun-ASR1.5的技术原理
- MoE架构:采用混合专家架构。简单来说,就像拥有一支多语种专家团队,听到特定语言时,只激活相关“专家”进行处理,极大提升了多语言处理的灵活性与效率。
- 分级分阶段训练:在训练阶段,分级、分阶段地使用精准数据,这种策略显著提升了模型应对真实世界复杂语音场景的能力。
- 方言数据驱动:基于数十万小时的真实方言语音数据训练,成果显著——平均字错误率(CER)相比上一版本直降56.2%。
- 古诗词语料库:为了攻克古诗词难关,团队构建了涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音语料库,为高精度识别打下了坚实基础。
如何使用Fun-ASR1.5
- 阿里云百炼平台:最直接的途径是访问阿里云百炼官网,进入模型体验中心的语音板块,即可调用相关API进行集成开发。
- 魔搭社区:如果想先快速体验一把,可以访问 https://modelscope.cn/studios/iic/FunAudio-ASR ,直接在线试用模型效果。
Fun-ASR1.5的关键信息和使用要求
- 产品定位:端到端语音识别大模型。
- 支持语言:30种语言,覆盖欧洲、东亚、东南亚、南亚及中东的主流语种。
- 方言覆盖:七大方言体系,其中上海话、粤语、四川话等15种高需求方言是优化重点。
- 古诗词准确率:在内部评测集上,字符级准确率达到了97%。
- 使用方式:主要通过API调用,或前往魔搭社区在线体验。
- 无需预设:在多语言混合场景下,用户无需提前指定语种标签,模型会自动搞定。
Fun-ASR1.5的核心优势
- 单模型多语言:一个模型无缝切换30种语言,这直接减少了企业部署与维护多个模型带来的成本和复杂度。
- 方言识别领先:基于海量方言数据训练,CER较上版大幅下降56.2%,能原汁原味地还原方言文字,贴近真实需求。
- 自动Code-Switching:无需任何预设,即可流畅处理同一段对话中的多语言混合场景,这对国际化团队沟通至关重要。
- 文化场景专项优化:针对古诗词诵读的专项训练,使其字符准确率达97%,不仅是技术展示,更是对文化传承的实际助力。
- 后处理智能化:自动标点与文本归一化功能,能大幅降低会议纪要、法律笔录、媒体采访等场景的后期人工编辑成本,提升效率。
Fun-ASR1.5的同类竞品对比
| 维度 | Fun-ASR1.5 | Seed-ASR | Tencent-ASR |
|---|---|---|---|
| 语言覆盖 | 30种语言,单模型覆盖 | 多语言支持 | 多语言支持 |
| 方言支持 | 七大方言体系,15种重点优化,CER降56.2% | 基础支持 | 基础支持 |
| Code-Switching | 无需预设标签,自动识别切换 | 支持 | 支持 |
| 古诗词识别 | 专项优化,97%字符准确率 | 未明确 | 未明确 |
| 智能后处理 | 自动标点+文本归一化(数字/日期/金额/电话) | 基础标点能力 | 基础标点能力 |
| 架构特点 | MoE混合专家架构 | 未公开 | 未公开 |
| 开放体验 | 阿里云百炼API + 魔搭社区 | 火山引擎 | 腾讯云 |
Fun-ASR1.5的应用场景
- 跨国会议:在跨国会议中,它能实时精准转写多语言混合的对话内容。参会者既无需提前预设语种,也免去了在多个翻译工具间来回切换的麻烦,沟通效率直线上升。
- 智能音箱:在智能家居与车载场景中,Fun-ASR1.5能精准识别各类方言指令,让智能设备真正“听得懂乡音”,打破语音交互的普及壁垒。
- 在线教育:对于国学在线教育,它支持古诗词诵读的精准转写,以97%的字符级准确率,为传统文化的数字化学习和传承提供了可靠的技术工具。
- 新闻采访:在新闻采访与内容生产领域,其自动添加标点、并将口语化数字日期归一化的能力,能大幅减少记者和编辑的后期整理时间,加速内容产出流程。
相关攻略
Claude Design是什么 简单来说,Claude Design 是 Anthropic Labs 最新推出的一个“对话式设计工作室”。它搭载了自家最先进的视觉模型 Claude Opus 4 7,核心玩法就是用自然语言描述你的需求,然后看着它快速生成高保真设计稿、交互式原型,甚至是完整的演示
Fun-ASR1 5是什么 在语音识别领域,一个模型通吃所有场景的梦想,似乎正被阿里通义团队变为现实。他们推出的Fun-ASR1 5,正是这个梦想的最新实践。这个端到端语音识别大模型,一口气将30种语言的识别能力塞进了一个模型里,更难得的是,它深入覆盖了中文的七大方言体系及二十余种地方口音,甚至对古
不知道你有没有遇到过这种情况:站在台上讲PPT,台下却一片沉寂,或者观众眼神明显已经开始飘忽不定。说实话,这感觉确实挺受挫的。很多时候,问题不在于内容本身,而在于我们的幻灯片更像是一本单向展示的“电子书”,缺少了和观众“对话”的能力。不过,现在我们手里多了一副新牌——AI工具,它能让你的PPT变得聪
漫画排版迎来AI助手:史克威尔艾尼克斯联手Mantra开发自动化工具 漫画编辑的案头工作,即将迎来一次效率革命。近日,专注于漫画翻译AI技术的东京公司Mantra宣布,将与游戏及漫画巨头史克威尔艾尼克斯(Square Enix)联合开发一款用于漫画自动排版的AI工具。 这项合作并非凭空而来,它建立在
这项由耶路撒冷希伯来大学计算机科学与工程学院联合该校法学院、以及艾伦人工智能研究所共同完成的研究,以预印本形式发布于2026年4月10日,论文编号为arXiv:2604 09237。有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。 研究背景:学者们每天都在做一件极其费力却又不得不做
热门专题
热门推荐
三季报收官,光伏企业交出了近年难得的尚佳成绩 三季报发布完毕,光伏行业总算交出了一份近年来难得的、还算不错的成绩单。市场等这一刻,确实等了挺久。 根据Choice光伏设备板块收录的78家企业财报,整个板块三季度的净利润达到了7 58亿元。这个数字怎么看?不妨对比一下:就在二季度,板块的净亏损还高达4
北京天兵科技天龙三号火箭首飞失利解析 最近,北京天兵科技自主研发的天龙三号大型液体运载火箭,在酒泉卫星发射中心执行首次飞行任务时遭遇失利,这无疑是给国内商业航天关注者带来了一次震动。这款被寄予厚望的火箭,瞄准的是近地轨道20吨级的可回收运力,其设计初衷是通过低成本、高频次的发射模式,抢占一箭36星组
苹果芯片实战:48台Mac mini搭建本地AI集群,如何碘伏云端语音识别? 最近科技圈有个挺有意思的消息。知名播客应用Overcast的开发者Marco Arment,自己动手搭了个“大家伙”——一个由48台苹果Mac mini组成的服务器集群。关键是,这个集群没走寻常路,它完全绕开了云端AI服务
纯电赛道再进化:领克10系列如何重新定义“运动轿车”? 如果问,纯电时代最让人怀念传统燃油车的是什么?很多人会把票投给两件事:说走就走的补能,和随心所欲的操控。最近,领克用一场全球首秀给出了自己的答案。旗下全新的中大型运动轿车领克10,以及更极致的性能版本领克10+联袂登场。这不仅仅是两款新车,更像
苹果正酝酿一款“可自定义”的Vision Pro,核心框架支持模块化拼装 一则来自供应链和专利领域的消息,引起了科技圈的关注。4月8日,有外媒报道指出,苹果似乎并不满足于当前的一体化设计思路,其正在深入探索如何打造一款高度可自定义的Apple Vision Pro。未来的VR AR头显,用户或许能像





