离线本地语音识别(Whisper模型,无需联网)
Whisper 这款工具完全在本地离线运行,无需任何 API 密钥。它支持长音频处理与多语种翻译,但前提是你的硬件性能要跟得上。简单来说,就是用自己的机器跑模型,没有调用次数限制,也不依赖网络环境。

1. 环境搭建与依赖安装
1.1 基础依赖库
首先安装必要的库:
pip install openai-whisper
# 额外依赖(音频解码必备)
pip install ffmpeg-python
- Windows、Mac、Linux 系统均需安装 ffmpeg 并配置好环境变量。官方下载地址:ffmpeg.org/
2. 完整的离线语音转文字代码
代码非常简洁,几行即可运行:
import whisper
# 加载模型:tiny/base/small/medium/large 越小越快、精度越低
model = whisper.load_model("base")
# 语音转文本
result = model.transcribe("test.mp3") # 支持 mp3/wav/flac 等几乎所有音频格式
print("识别结果:")
print(result["text"])
模型选择参考
| 模型 | 速度 | 精度 | 适用场景 |
|---|---|---|---|
| tiny | 最快 | 一般 | 测试与简单场景 |
| base | 较快 | 良好 | 日常使用(推荐) |
| small | 中等 | 较好 | 需要较高准确率 |
| large | 最慢 | 最高 | 专业场景与多口音处理 |
核心优势
- 全程离线运行,无调用次数限制
- 支持长音频、中英文混合及嘈杂环境
- 兼容 mp3、wav、flac、m4a 等多种主流格式
实时麦克风语音转文字解决方案(在线+离线)
1. 百度API + 麦克风实时转写
如果你需要边说话边输出文字,还需要额外安装一个录音库:
pip install pyaudio
结合前面提到的百度 SDK,即可实现实时的语音转文字交互体验。
2. Whisper 实时麦克风转写
另一种方案是使用 Whisper 配合 pyaudio 实时采集音频,然后将音频片段逐段送入模型进行识别。虽然延迟上不如专业语音助手,但在个人项目中效果已经足够实用。
