豆包语音识别模型2.0发布：支持多模态视觉识别与13种外语

首页/科技数码/文章详情

豆包语音识别模型2.0发布：支持多模态视觉识别与13种外语

时间：2025-12-05 19:13

12月5日，火山引擎正式发布豆包语音识别模型2 0（Doubao-Seed-ASR-2 0），依托Seed混合专家大语言模型架构构建。据最新介绍，2 0版本模型推理能力提升，可以通过深度理解上下文

12月5日，火山引擎正式推出豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），该模型基于Seed混合专家大语言模型架构构建而成。

据最新介绍，2.0版本模型的推理能力显著提升，能够通过深度理解上下文语境实现精准识别，其整体关键词召回率提升了20%。模型支持多模态视觉识别，在“听得懂”的同时也能“看得懂”，可通过单图或多图等视觉信息输入，有效提升文字识别的准确度。

该模型支持日语、韩语、德语、法语等13种海外语种的识别。同时，重点针对专有名词、人名、地名、品牌名称以及易混淆多音字等复杂场景进行了专项优化升级。

来源：http://tech.hexun.com/2025-12-05/222663028.html

识别支持视觉提升语种模型多模上下文

上一篇RTX 6000D显卡现身，苹果机皇价格跌至历史新低改写 下一篇武汉2027年剑指全球科研城市前十，全社会研发投入强度达4.2%

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

宇树验证具身智能新趋势核心战场不止于模型

具身智能领域的竞争，正步入一个全新的发展阶段。近日，宇树科技正式发布了其WVLA2 0具身大模型，并公开展示了无需远程遥操的实机演示。这一举动向业界释放了一个明确信号：当前这场竞赛的核心壁垒，或许已不再是谁拥有更大的模型参数，而是谁的架构设计更为精巧、谁能更深度地实现软硬件一体化、谁能积累更海量的实

科技数码 · 2026-07-01

智元精灵G2机器人产线直播完成64828件成功率99.99%

99 99%的任务成功率——这是智元机器人在6月23日至28日期间，将精灵G2机器人直接部署到真实的平板量产质检产线，并全程公开直播后，交出的最具说服力的答案。让我们关注这场直播的硬核数据：连续64小时不间断作业，产线累计完成17625件产品检测，机器人累计执行64828次操作，任务成功率精确达到

科技数码 · 2026-07-01

纯电动Cayenne首秀保时捷驾驶中心全国路演

保时捷正在加速推进其电动化转型战略。继纯电动Cayenne与Gen 3 Evo赛车在三亚街道赛共同亮相后，仅过了一周时间，这款全新纯电SUV便驶入中国专业赛道场景——这一次，地点换成了永久性专业赛道。回顾2026年北京车展，保时捷首款纯电动Cayenne Turbo正式首发并公布了售价。新车提供两

科技数码 · 2026-07-01

AI工具能否成为高价志愿咨询纠纷的破局之道

广东高考成绩公布后，志愿填报这场“第二次大考”随即全面开启。对众多家庭而言，这或许比高考本身更令人心力交瘁——时间紧迫、信息庞杂、选项繁多，每一步都如履薄冰。教育部近日发布预警，严厉批评那些漫天要价的“志愿规划师”，直言其本质上就是忽悠。然而每年踩坑的案例仍屡见不鲜，网上信息真假混杂，不同机构给出的

科技数码 · 2026-07-01

头部企业全产业链布局锂电池回收循环

近年来，伴随新能源汽车产业的爆发式增长，早期投入使用的动力电池正迎来集中退役高峰，锂电池回收行业因此进入一个至关重要的“窗口期”。这些退役电池中富含锂、钴等珍贵金属资源——尤其是被誉为“白色石油”的锂，正从地下矿藏逐渐转向我们身边的“城市矿山”，从“一次性使用”的线性消耗模式，迈向“循环再生”的可持