游乐游手机版
首页/科技数码/文章详情

FFmpeg新增AI语音识别功能,支持自动生成视频字幕

时间:2025-08-18 21:16
8 月 13 日消息,FFmpeg 是一个流行的开源媒体播放器通用框架,现在包含了一个新的 af_whisper 音频工具,可以直接在 FFmpeg 生态系统中实现自动语音识别(ASR)。该工具使

8 月 13 日消息,FFmpeg 是一个流行的开源媒体播放器通用框架,现在包含了一个新的 af_whisper 音频工具,可以直接在 FFmpeg 生态系统中实现自动语音识别(ASR)。

该工具使用了 whisper.cpp 库,为媒体处理工作流程添加了一个 AI 模型,允许进行灵活的音频转译文本,包括选择 AI 模型、指定语言以及设置输出格式,如文本、SRT 或 JSON

该工具可以处理预录制的文件和实时音频流,用户还可以使用语音激活检测(VAD)来提高转写的准确性和效率。

注意到,该工具还支持 GPU 加速,可以显著加快转写过程。对于用户来说,这一功能取代了对外部、多步骤转写过程的需求,将任务整合到一个高效的单命令行工作流程中。

来源:https://www.ithome.com/0/875/158.htm
上一篇高德地图夏季实用功能盘点:5个你不知道的出行技巧 下一篇又一Linux发行版宣布停更,经典系统正式谢幕
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
三花智控遭施罗德减持436.17万股
科技数码 · 2026-05-30

三花智控遭施罗德减持436.17万股

5月26日,施罗德在场内减持三花智控四百三十六点一七万股,每股均价三十六点五四三二港元,涉资约一点五九亿港元。持股比例由百分之十四点六三降至百分之十三点七二,机构仓位调整意图值得关注。

vivo S60系列发布 2899元起小屏拍人神器
科技数码 · 2026-05-30

vivo S60系列发布 2899元起小屏拍人神器

2026年5月29日,vivo发布S60系列,含标准版与元气版,全系小屏设计。搭载6 59英寸144HzOLED直屏、7200mAh电池。影像上首发4KLive原相机、地平线OIS防抖及Live调色盘等玩法,支持3D空间视效。标准版配骁龙8s处理器,元气版为天玑7500,起售价2899元。

拉勾网创始人许单单欠32万再被限消成老赖
科技数码 · 2026-05-30

拉勾网创始人许单单欠32万再被限消成老赖

因无力偿还32万余元员工离职补偿款,拉勾网及创始人许单单被法院发布限制消费令。该公司曾估值近2亿美元,现累计被执行超363万元,已申请破产重整。战略决策失误、赛道单一及用户口碑透支导致其陨落。

联想AI主机连发叠加财报超预期股价再创新高
科技数码 · 2026-05-30

联想AI主机连发叠加财报超预期股价再创新高

联想AI主机密集发布叠加财年财报超预期,股价年内翻倍创新高。混合式AI战略落地,AI主机开辟个人AI边缘设备新赛道,降低企业AI使用成本。全年营收831亿美元同比增长20%,净利润同比增长42%,AI收入占比达33%。

莲花Emira 420 Sport登场 轻量化升级 AMG动力极致驾驶
科技数码 · 2026-05-30

莲花Emira 420 Sport登场 轻量化升级 AMG动力极致驾驶

路特斯Emira420Sport中置发动机跑车搭载梅赛德斯-AMG2 0升四缸涡轮增压发动机,通过轻量化减重25公斤、下压力增加25公斤,配合双向可调式减震器与赛道应用程序,实现极致操控性能。欧洲售价十二万九千九百欧元,二零二六年八月交付。