豆包语音识别2.0上线：升级多语种图像识别，听懂13国外语更看懂图

首页

热心网友

转载

2025-12-06

12月5日，火山引擎宣布推出升级版豆包语音识别模型2.0，该版本在识别能力和多语言支持方面均实现显著突破。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语

新版模型在推理能力上得到全面提升，能够通过深度理解上下文语境实现精确识别，整体关键词召回率较之前提升了20%；此外，模型还支持多模态视觉理解，不仅能够“听懂”语音内容，还能结合视觉信息“看懂”图片内容，通过对单张或多张图像的分析，进一步提升文字识别的精准度；同时，模型还新增了对日语、韩语、德语、法语等13种海外语言的高精度识别能力。

豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语

豆包语音识别模型基于火山引擎自研的Seed混合专家大语言模型架构构建而成，在延续1.0版本20亿参数音频编码器架构的基础上，重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了专项优化与升级。其更强大的上下文推理能力，使模型能够有效理解和融合多模态信息，并具备混合语言的精准识别能力。

升级后的豆包语音识别模型2.0采用了强化学习领域的PPO优化方案进行训练，无需依赖目标词汇的历史出现记录，通过深入理解更加泛化的上下文关系即可完成识别任务，这让语音识别功能更适应动态变化的真实交互场景，输出结果也更加准确可靠。

以历史人物生平讨论为例，当用户提及“筠州”（注：该地名读音为yún zhōu）这一生僻地名时，如果缺乏上下文推理能力的传统模型，很可能会将其误识别为同音的“云州”或“郓州”等地名。而豆包语音识别模型2.0可以依托“当前讨论苏轼、苏辙”这一背景信息，即使上下文中从未出现过“筠州”一词，也能通过逻辑推理锁定用户所指的特定地名，最终实现对多音字地名的精准识别。

豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语

豆包语音识别模型2.0将上下文理解范围从纯文本拓展至视觉层面，使语音识别功能突破了过去“只识文字”的局限性，实现了向“理解场景”的跨越式升级。模型通过智能分析单张或多张图片中的视觉信息，辅助用户在日常拍摄或图片创作等多样化应用场景中，精准识别容易混淆的字词，从而显著提升识别的准确性。

以日常搜拍场景为例，当用户发送一张滑板运动的照片后，若想描述画面中的特技动作“滑鸡”（注：该词在特定语境中代指滑板上的花式技巧），传统语音识别模型可能会因其不常见而误判为“滑梯”等常用词语。而豆包语音识别模型2.0能够同时解析图像内容，识别出画面中出现的“鸡”（可能为道具或装饰元素），进而准确判断用户想表达的正是“滑鸡”这一特定概念，有效避免了因字词混淆导致的识别偏差。

豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语

在图片创作与编辑场景中，越来越多的用户选择通过语音指令来生成或修改内容。豆包语音识别模型2.0能够智能结合当前图像内容进行辨析与纠错。当用户通过语音提及需要修改的元素时，模型可以精准判断其真实需求——比如明确用户想调整的是画面中的“码头”元素，而非同音但更常见的“码头”一词，最终生成的图片更贴合用户的预期效果。

豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语