在全球权威AI评测平台Artificial Analysis最新发布的榜单中,阿里巴巴语音大模型家族——Fun-Realtime-ASR与Fun-Realtime-AudioChat——一举斩获三项核心指标冠军,综合表现超越包括GPT-Realtime-2在内的国际顶尖竞品。此次评测并非简单的语音转文字测试,而是围绕“识别准确率”、“语义理解深度”与“对话交互自然度”三大维度展开的全面能力评估,标志着中国AI语音技术在国际赛场上的重要突破。
在衡量识别准确性的WER(词错误率)指标上,阿里Fun-Realtime-ASR模型取得了1.8%的卓越成绩,意味着每百词误差不足两个,展现出极高的转写精度。该模型具备毫秒级实时响应能力,广泛支持三十余种全球主流语言及七大中文方言体系,并能精准适配超过二十个地区的特色口音。针对金融、医疗等高专业度场景,模型还开放了企业级定制接口,可深度优化行业术语与复杂语境下的识别效果,实现技术与业务场景的高效融合。



如果说高精度语音识别是基础能力,那么深度的语义理解与流畅的对话交互则代表了AI语音技术的智能化高阶水平。这正是Fun-Realtime-AudioChat模型的核心优势所在。
在评测中,该模型于“语音推理能力”(Speech Reasoning)维度获得97.6%的最高分。此项指标重点评估模型对语义逻辑、用户意图乃至隐含信息的深层理解与推理水平。如此高分表明,模型已能直接在语音层面高效完成意图识别、情感分析、多轮逻辑推理等复杂任务,实现了从“听觉感知”到“认知智能”的端到端技术跨越。
决定对话体验是否自然的关键在于“对话动态”(Conversational Dynamics)指标,它评估的是对话的连贯性与交互节奏。Fun-Realtime-AudioChat在此项拿下97.8%的优异得分,证明其不仅能准确接续话题,更能智能把握对话时机——避免抢话、自然应对打断、适时给予反馈,其交互流畅度已高度贴近人类自然交谈的体验。
目前,这套领先的实时语音AI技术已全面融入阿里巴巴产品生态,在通义千问App、高德地图、钉钉等核心应用中,为用户提供实时语音转写、智能导航对话、会议内容自动生成等高效服务。从技术领先到场景落地,语音作为新一代人机交互的核心入口,其应用价值与用户体验正在被持续重塑与提升。
