时间:2025-08-18 作者:游乐小编
8月13日最新消息,开源多媒体框架FFmpeg迎来重要更新,新增了一个名为af_whisper的音频处理工具,使其生态系统首次具备了原生自动语音识别(ASR)能力。
这个创新工具基于whisper.cpp库开发,将AI语音识别模型深度整合到媒体处理流程中。用户现在可以直接在FFmpeg中进行灵活的音频转文字操作,包括选择不同精度的AI模型、指定识别语言,以及输出文本、SRT字幕或JSON格式等多种选择。
特别值得一提的是,af_whisper不仅支持对预录制文件进行处理,还能实时处理音频流。更智能的是,该工具集成了语音激活检测(VAD)技术,能够自动识别有效语音段落,大幅提升转写准确率和处理效率。
对于需要处理大量音频的专业用户来说,该工具还提供了GPU加速支持,可以显著缩短处理时间。这项功能的加入意味着用户不再需要依赖外部工具进行复杂的多步骤处理,现在只需通过简单的命令行操作,就能完成从音频到文字的一站式转换。
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略