开源Whisper音频转录速度提升19倍

时间：2026-06-24 11:45

InsanelyFastWhisper已在GitHub开源，命令行工具利用FlashAttention2将Whisper转录速度提升19倍，处理2 5小时音频仅需98秒，准确度不变。支持多语言、说话人分离、精确时间戳及跨平台运行，无需APIKey，可高效处理多种音频格式，适用于语音转写任务。

一款名为 Insanely Fast Whisper 的开源音频转录工具，将 OpenAI Whisper 的处理速度提升了高达 19 倍。具体来说，一段 2.5 小时的录音，原本需要 31 分钟才能完成转写，现在只需 98 秒便可得到结果。这种性能跨越已不止是优化，更像是彻底更换了技术路径。

请注意，它既不是套壳的网页应用，也不依赖云端 API。这是一个直接调用本地 GPU 的命令行工具，完全开源，甚至无需准备 API Key。对于需要高频处理音频、同时不愿将数据上传至外部服务器的用户而言，该工具相当于把控制权重新交还到了自己手中。

技术核心：Flash Attention 2 带来的质变

Insanely Fast Whisper 之所以能达到如此夸张的速度，核心在于它集成了 Flash Attention 2 技术。这项技术的独特之处在于——模型权重与标准 Whisper 完全相同，因此转录准确度丝毫不差，但处理速度却实现了飞跃。等价替换且无质量损失，这才是真正的效率优化。

以下是一组在 NVIDIA A100 80GB 上实测的数据，可以直观感受差距：

标准 Whisper large-v3：处理 2.5 小时音频需要 31 分钟
优化后的 large-v3：仅需 1 分 38 秒
Distil-Whisper large-v2：只需 1 分 18 秒

从半小时缩短至一分多钟，这种提升已不再是量变，而是质变。

不只是快

速度只是它的第一张王牌。在实用性方面，Insanely Fast Whisper 也做了充分准备，将多项日常高频需求整合其中：

多语言支持：自动识别数十种语言，也可一键指定翻译为英语。
说话人分离：内置声纹识别功能，可区分不同发言人的音频片段。
精确时间戳：提供词级和片段级时间戳，方便后期定位与剪辑。
跨平台兼容：NVIDIA GPU 与 Apple Silicon Mac 均可运行，无需修改代码。
免费运行：即使没有本地 GPU，也可在 Google Colab 免费层直接使用。

单独来看，这些功能都不算新颖，但把它们整合在一起，并保持如此高效的处理能力，就变得非常实用了。

安装使用

这是一款命令行工具，安装过程非常轻量。只需通过 pipx 安装即可使用：

pipx install insanely-fast-whisper
insanely-fast-whisper --file-name <音频文件路径或URL>

如果只想临时使用一次，甚至无需安装，直接运行 pipx run 即可：

pipx run insanely-fast-whisper

小结

有意思的是，这个项目最初只是 Hugging Face Transformers 团队内部编写的一个基准测试演示脚本。没想到社区中发现它完全能够解决实际需求，开发者顺势而为，逐步添加了用户真正需要的功能，最终成长为一个完整的命令行工具。现在社区中已经衍生出 Web 应用和 Python 包封装，生态正在逐步成型。对于经常处理大量音频素材的人来说，这个工具值得放入自己的工具箱。

地址：https://github.com/Vaibha vs10/insanely-fast-whisper

来源：https://cloud.tencent.com.cn/developer/article/2695933

开源社区

上一篇Qwen3.6-27B仅需18GB内存本地运行性能超越397B大模型 下一篇大模型之争已过时真正的价值究竟在哪里

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网