火山引擎发布豆包语音识别模型2.0:识别精度与效率双提升
据智通财经APP获悉,12月5日,火山引擎正式发布了豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)。该模型的推理能力显著提升,能够通过深度理解上下文完成精准识别,整体关键词召回率提升了20%;它支持多模态视觉识别,不仅能“听懂字”,还能“看懂图”,通过单图和多图等视觉信息输入,让文字识别更加精确;同时,模型还支持日语、韩语、德语、法语等13种海外语种的精准识别。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
豆包语音识别模型依托Seed混合专家大语言模型架构构建,在延续1.0版本中200亿参数高性能音频编码器优势的基础上,重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了优化升级。而更强大的上下文推理能力,则让模型实现了多模态信息理解与混合语言精准识别能力的融合。
相关攻略
财联社3月29日讯2026年,一只“红色小龙虾”在科技圈引发广泛关注。OpenClaw的爆火,不仅是一次技术产品的出圈,也在中关村论坛期间掀起了关于AI开源生态与智能体未来的深层讨论,杨植麟、张鹏、
库克手持iPhone 17 Pro 北京时间3月30日,据彭博社报道,苹果准备开放Siri等AI战略大调整表明,该公司正在重新致力于其核心商业模式:销售硬件和服务,依靠硬件搭建起类似于App Sto
在今天举行的2026中关村论坛年会开源主题圆桌上,月之暗面创始人杨植麟和智谱CEO张鹏,小米MiMo大模型负责人罗福莉,以及无问芯穹联合创始人兼CEO夏立雪、香港大学助理教授、博士生导师、Nanob
IT之家 3 月 27 日消息,智谱最新现已公布 GLM-5 1 模型,所有 Coding Plan 用户均可调用。IT之家附 Claude Code、OpenClaw 启用 GLM-5 1 方法如
IT之家 3 月 27 日消息,腾讯云今日正式发布 Agent 产品全景图,构建了从个人到企业、从基础设施到上层场景应用的完整产品体系。该体系围绕 Agent 基础设施层、模型服务层、技能生态层、A
热门专题
热门推荐
首先需登录Google账号确保权限正常,再通过Chrome网上应用店搜索并点击“添加至Chrome”安装;若商店不可用,则启用开发者模式后手动加载解压的扩展文件夹。如果您尝试在谷歌
在忙碌的求职过程中,boss直聘是很多人寻找工作的得力助手。然而,有时候过多的消息通知会让人应接不暇,甚至打扰到休息。别担心,今天就来教你如何在boss直聘开启消息免打扰,以及在休
蛋仔派对自上线以来,凭借其可爱的角色、丰富多样的玩法以及充满趣味性的社交互动,吸引了无数玩家的喜爱。每个赛季的更新都为玩家带来全新的体验,大家也都十分关注新赛季的开启时间。对于蛋仔
初入洛克王国世界,跟随新手引导完成一系列简单任务,这不仅能熟悉游戏基本操作,还能快速了解游戏世界观。完成新手任务后,积极探索王国各个角落,与场景中的 npc 对话,可能会获得意想不
《Something Very Bad Is Going to Happen》3月26日上线后,Haley Z Boston这部婚礼题材恐怖剧把 "婚前焦虑 "拍成了超现实噩梦。播完结局那片死寂里,观





