Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型

时间：2026-04-22 13:52

Fun-ASR1 5是什么在语音识别领域，一个模型通吃所有场景的梦想，似乎正被阿里通义团队变为现实。他们推出的Fun-ASR1 5，正是这个梦想的最新实践。这个端到端语音识别大模型，一口气将30种语言的识别能力塞进了一个模型里，更难得的是，它深入覆盖了中文的七大方言体系及二十余种地方口音，甚至对古

Fun-ASR1.5是什么

在语音识别领域，一个模型通吃所有场景的梦想，似乎正被阿里通义团队变为现实。他们推出的Fun-ASR1.5，正是这个梦想的最新实践。这个端到端语音识别大模型，一口气将30种语言的识别能力塞进了一个模型里，更难得的是，它深入覆盖了中文的七大方言体系及二十余种地方口音，甚至对古诗词诵读做了专项优化。其核心在于，它基于MoE架构实现了自动语种切换，用户无需预设任何标签。再加上智能标点预测与文本归一化等后处理能力，Fun-ASR1.5的目标很明确：让语音转写从“能用”彻底走向“好用”。

Fun-ASR1.5的主要功能

多语言识别：一个模型，覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等30种语言，堪称语言识别界的“联合国”。
自动语种切换：这才是亮点——无需预设语种标签，模型能自动识别并切换Code-Switching场景下的多语言混合语音，对话中英夹杂？完全没问题。
方言识别：覆盖七大方言体系及二十余种地方口音，并对上海话、粤语、四川话等15种高需求方言进行了重点优化。
古诗词识别：构建了从先秦到近代的古诗词语音-文本对齐语料库，专门支持文言诵读的精准转写，让科技为文化传承赋能。
智能标点预测：基于上下文语义，自动插入逗号、句号、问号等标点符号，转写结果不再是一团“字糊”。
文本归一化：自动将口语中凌乱的数字、日期、金额、电话等信息，转换为清晰规范的书面格式，省去大量后期整理工作。

Fun-ASR1.5的技术原理

MoE架构：采用混合专家架构。简单来说，就像拥有一支多语种专家团队，听到特定语言时，只激活相关“专家”进行处理，极大提升了多语言处理的灵活性与效率。
分级分阶段训练：在训练阶段，分级、分阶段地使用精准数据，这种策略显著提升了模型应对真实世界复杂语音场景的能力。
方言数据驱动：基于数十万小时的真实方言语音数据训练，成果显著——平均字错误率（CER）相比上一版本直降56.2%。
古诗词语料库：为了攻克古诗词难关，团队构建了涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音语料库，为高精度识别打下了坚实基础。

如何使用Fun-ASR1.5

阿里云百炼平台：最直接的途径是访问阿里云百炼官网，进入模型体验中心的语音板块，即可调用相关API进行集成开发。
魔搭社区：如果想先快速体验一把，可以访问 https://modelscope.cn/studios/iic/FunAudio-ASR ，直接在线试用模型效果。

Fun-ASR1.5的关键信息和使用要求

产品定位：端到端语音识别大模型。
支持语言：30种语言，覆盖欧洲、东亚、东南亚、南亚及中东的主流语种。
方言覆盖：七大方言体系，其中上海话、粤语、四川话等15种高需求方言是优化重点。
古诗词准确率：在内部评测集上，字符级准确率达到了97%。
使用方式：主要通过API调用，或前往魔搭社区在线体验。
无需预设：在多语言混合场景下，用户无需提前指定语种标签，模型会自动搞定。

Fun-ASR1.5的核心优势

单模型多语言：一个模型无缝切换30种语言，这直接减少了企业部署与维护多个模型带来的成本和复杂度。
方言识别领先：基于海量方言数据训练，CER较上版大幅下降56.2%，能原汁原味地还原方言文字，贴近真实需求。
自动Code-Switching：无需任何预设，即可流畅处理同一段对话中的多语言混合场景，这对国际化团队沟通至关重要。
文化场景专项优化：针对古诗词诵读的专项训练，使其字符准确率达97%，不仅是技术展示，更是对文化传承的实际助力。
后处理智能化：自动标点与文本归一化功能，能大幅降低会议纪要、法律笔录、媒体采访等场景的后期人工编辑成本，提升效率。

Fun-ASR1.5的同类竞品对比

维度	Fun-ASR1.5	Seed-ASR	Tencent-ASR
语言覆盖	30种语言，单模型覆盖	多语言支持	多语言支持
方言支持	七大方言体系，15种重点优化，CER降56.2%	基础支持	基础支持
Code-Switching	无需预设标签，自动识别切换	支持	支持
古诗词识别	专项优化，97%字符准确率	未明确	未明确
智能后处理	自动标点+文本归一化（数字/日期/金额/电话）	基础标点能力	基础标点能力
架构特点	MoE混合专家架构	未公开	未公开
开放体验	阿里云百炼API + 魔搭社区	火山引擎	腾讯云

Fun-ASR1.5的应用场景

跨国会议：在跨国会议中，它能实时精准转写多语言混合的对话内容。参会者既无需提前预设语种，也免去了在多个翻译工具间来回切换的麻烦，沟通效率直线上升。
智能音箱：在智能家居与车载场景中，Fun-ASR1.5能精准识别各类方言指令，让智能设备真正“听得懂乡音”，打破语音交互的普及壁垒。
在线教育：对于国学在线教育，它支持古诗词诵读的精准转写，以97%的字符级准确率，为传统文化的数字化学习和传承提供了可靠的技术工具。
新闻采访：在新闻采访与内容生产领域，其自动添加标点、并将口语化数字日期归一化的能力，能大幅减少记者和编辑的后期整理时间，加速内容产出流程。

来源：https://ai-bot.cn/fun-asr1-5/

ai工具

上一篇一个CLAUDE.md霸榜GitHub第一，蒸馏自Karpathy，6万码农抄作业 下一篇马斯克暴走官宣：Grok 5就是AGI，五月连轰两代万亿怪兽，OpenAI慌了

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-07-02

小米集团辟谣官微上线，定位官方辟谣平台

小米辟谣官微6月30日正式上线，作为集团官方辟谣阵地，用户可查询辟谣声明、反馈谣言线索。账号将主动澄清网络谣言，维护合法商誉，并致力于打造权威辟谣通道，保障公众知情权与合法权益。

业界动态 · 2026-07-02

小米官方辟谣账号上线持续维护合法商誉

6月30日，小米集团的一则动态引发热议：小米辟谣官方账号，正式上线了。简单来说，小米这次将澄清谣言的工作直接推到了前台——在中央网信办违法和不良信息举报中心的指导下，小米辟谣的全新阵地宣告成立。目前，这个辟谣账号已在微博开通。用户可以通过它核实与查阅小米官方的辟谣声明，也可以反馈任何涉及小米的谣言

业界动态 · 2026-07-02

特斯拉Cybercab无驾舱量产车在奥斯汀启动L4级公开道路测试

特斯拉Cybercab量产车在奥斯汀启动L4级公开测试，彻底取消方向盘等物理控制装置。安全监督员仅观察不干预。车辆专为Robotaxi设计，搭载HW4 0与FSDV14 3 3系统，续航672公里，支持无线充电，实现全程独立驾驶。

业界动态 · 2026-07-02

鸿蒙智行回应问界M5车内异味系第三方配件所致

6月30日，针对近期网络热议的“问界M5车内异味”事件，鸿蒙智行官方小助手在社区帖子下方发布了正式回应。官方表示，已对刘先生的这辆车进行了全面检测排查。工作人员上门核查后发现，涉事车辆内部加装了大量第三方配件，包括非原厂皮质、塑胶收纳摆件、脚托、抱枕、车衣等。在拆除所有加装配件后，工作人员严格依照国

业界动态 · 2026-07-02

闫闯直言20万买电车选400V太愚蠢

2026年6月30日，微博上一则关于电动汽车高压平台技术路线的争论迅速引爆热搜。坐拥超过475万粉丝的汽车领域博主闫闯，在归还体验了4天的理想i6时，专门花费6分多钟把电量充至满格，并掷地有声地留下一句：“一点不比加油慢。”随后他补充道：“还是那句话，都这时代了，20万+电车还买400V的绝对愚蠢。

Fun-ASR1.5 &#8211; 阿里通义推出的端到端语音识别模型

Fun-ASR1.5是什么

Fun-ASR1.5的主要功能

Fun-ASR1.5的技术原理

如何使用Fun-ASR1.5

Fun-ASR1.5的关键信息和使用要求

Fun-ASR1.5的核心优势

Fun-ASR1.5的同类竞品对比

Fun-ASR1.5的应用场景

相关推荐

同类最新

小米集团辟谣官微上线，定位官方辟谣平台

小米官方辟谣账号上线持续维护合法商誉

特斯拉Cybercab无驾舱量产车在奥斯汀启动L4级公开道路测试

鸿蒙智行回应问界M5车内异味系第三方配件所致

闫闯直言20万买电车选400V太愚蠢

Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型