Python语音转文本实战实现方法与完整代码示例_游乐游手机版

首页/AI教程/文章详情

Python语音转文本实战实现方法与完整代码示例

时间：2026-06-01 10:47

Whisper是OpenAI开源模型，实现离线语音转文本，无需联网和API密钥。支持长音频、多语种及多种格式（如MP3、WAV），需安装openai-whisper和ffmpeg。代码简洁，模型从tiny到large可选，适配不同精度与速度。实时转写可通过百度API或Whisper配合pyaudio实现。

```html

离线本地语音识别（Whisper模型，无需联网）

Whisper 这款工具完全在本地离线运行，无需任何 API 密钥。它支持长音频处理与多语种翻译，但前提是你的硬件性能要跟得上。简单来说，就是用自己的机器跑模型，没有调用次数限制，也不依赖网络环境。

语音转文本python

1. 环境搭建与依赖安装

1.1 基础依赖库

首先安装必要的库：

pip install openai-whisper
# 额外依赖（音频解码必备）
pip install ffmpeg-python

Windows、Mac、Linux 系统均需安装 ffmpeg 并配置好环境变量。官方下载地址：ffmpeg.org/

2. 完整的离线语音转文字代码

代码非常简洁，几行即可运行：

import whisper

# 加载模型：tiny/base/small/medium/large 越小越快、精度越低
model = whisper.load_model("base")

# 语音转文本
result = model.transcribe("test.mp3")  # 支持 mp3/wav/flac 等几乎所有音频格式
print("识别结果：")
print(result["text"])

模型选择参考

模型	速度	精度	适用场景
tiny	最快	一般	测试与简单场景
base	较快	良好	日常使用（推荐）
small	中等	较好	需要较高准确率
large	最慢	最高	专业场景与多口音处理

核心优势

全程离线运行，无调用次数限制
支持长音频、中英文混合及嘈杂环境
兼容 mp3、wav、flac、m4a 等多种主流格式

实时麦克风语音转文字解决方案（在线+离线）

1. 百度API + 麦克风实时转写

如果你需要边说话边输出文字，还需要额外安装一个录音库：

pip install pyaudio

结合前面提到的百度 SDK，即可实现实时的语音转文字交互体验。

2. Whisper 实时麦克风转写

另一种方案是使用 Whisper 配合 pyaudio 实时采集音频，然后将音频片段逐段送入模型进行识别。虽然延迟上不如专业语音助手，但在个人项目中效果已经足够实用。

```

来源：https://juejin.cn/post/7645617810040569894

其他

上一篇企业团队协作效率提升的智能办公软件实用策略 下一篇AI导航网站AIL人工智能工具资源库深度评测

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容，方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

AI如何从聊天能力进化到做事能力 Skill的实践之路

AI教程 · 2026-07-10

AI如何从聊天能力进化到做事能力 Skill的实践之路

让AI从“会聊天”转向“会做事”的关键在于Skill（技能包）。Skill由可执行代码、精确的说明书（如JSONSchema描述）及结果翻译器构成。通过精细定义参数与边界，AI能稳定调用接口完成重启服务、查询数据等操作，从而从空谈顾问变为可靠的数字员工。

零基础看懂Agent Skill MCP三层关系解读

AI教程 · 2026-07-10

零基础看懂Agent Skill MCP三层关系解读

智能体是自主执行任务的实体，技能是被封装的原子能力，MCP协议是智能体与技能间的标准化通信协议。智能体通过MCP协议发现并调用技能，灵活组合完成复杂任务。三者解耦，实现即插即用，降低了系统集成复杂度。

AI编码时代UI自动化测试智能化演进之路—中国平安人寿蔡雪

AI教程 · 2026-07-10

AI编码时代UI自动化测试智能化演进之路—中国平安人寿蔡雪

AI编码时代，UI自动化测试面临效率断层。平安人寿蔡雪基于自研“女娲”平台，分享从可视化录制到AI智能录制、基于EventDOM的智能感知与自愈机制的演进路径，实现用例创建降本、维护减负、执行提稳，推动测试工具从自动化向智能化升级。

一文讲清Agent、Skill、MCP到底什么关系：零基础小白三层拆解

AI教程 · 2026-07-10

一文讲清Agent、Skill、MCP到底什么关系：零基础小白三层拆解

Agent是自主执行任务的数字打工人，Skill为原子化能力函数，MCP是标准协议接口。Agent通过MCP发现并调用Skill，实现即插即用，解耦技能与智能体，让大模型能力安全、统一、可扩展地集成。

文生图同一提示词为何每次不同？随机性与可复现解析

AI教程 · 2026-07-10

文生图同一提示词为何每次不同？随机性与可复现解析

文生图每次结果不同源于从随机噪声开始去噪。固定种子（seed）可锁定初始噪声，但还需采样步数、引导强度、采样器、尺寸、提示词、模型等参数一致才能复现。通过控制变量法调参，先固定种子再逐一调整其他参数，可精确归因差异。