Scribe v2转录模型发布，支持90余种语言操作

时间：2026-01-13 11:25

ElevenLabs 正式发布 Scribe v2 转录模型，专为离线批量语音转写与字幕生成场景打造。该模型在英语上的词错误率（WER）低至约 5%，对印地语等全球超 90 种语言

ElevenLabs正式推出第二代转录模型Scribe v2，该系统专为高效处理离线批量语音转写与自动生成字幕而设计。新版本在英语上的词误率已降至5%左右，并对包括印地语在内的全球超过90种语言保持了低于10%的识别错误率控制。

ElevenLabs 发布转录模型 Scribe v2，支持 90 多种语言

Scribe v2现已深度集成至ElevenLabs Studio平台，它能够处理单次时长超过10小时的超长音频文件，并全面符合GDPR、HIPAA等主流国际数据合规标准。其核心能力包括基于关键词引导的Keyterm Prompting功能，以及具备上下文感知能力的智能多说话人日志识别技术。

ElevenLabs 发布转录模型 Scribe v2，支持 90 多种语言

核心优势

面向大规模转录与字幕任务优化：Scribe v2专为高吞吐量语音转写、自动字幕生成及标题提取而优化，在稳定性与准确性方面显著优于前代Scribe v1，可稳健应对长时音频、自然停顿、语调起伏及长时间静音等复杂语音现象；原生支持超过90种语言，轻松覆盖多语言混合内容场景。
关键词引导式转录（Keyterm Prompting）：用户最多可预设100个专业术语、品牌名称或技术词汇，模型将结合语境智能判断并精准还原这些关键表达，大幅提升垂直领域文本质量。
内置细粒度实体识别：支持识别涵盖个人身份、医疗健康、金融支付等在内的56类敏感实体，并为每个实体标注毫秒级时间戳，便于后续合规审查与内容编辑。
多语种无缝混识：无需人工切分或标注语种，即可自动识别并准确转录同一音频文件中交替出现的多种语言内容。
企业级增强能力：集成智能说话人分离、字级别精确时间轴、动态非语音事件标签（如笑声、脚步声、键盘敲击等），并通过SOC 2、ISO/IEC 27001、PCI DSS Level 1、HIPAA、GDPR等多项权威安全与隐私认证，支持零数据留存模式。
开箱即用与灵活接入：Scribe v2已上线ElevenLabs Studio用户界面，同时开放标准化API接口，供开发者快速集成至自有系统。

此外，为适配实时交互类应用场景（如AI Agent对话流处理），最新同步推出了Scribe v2 Realtime版本，针对极低延迟与流式语音输入进行了专项优化。

了解更多：

源码获取：

来源：https://www.php.cn/faq/1971819.html?uid=1246273

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。