零基础用Vibe Coding手搓本地会议助手完整实战教程

时间：2026-05-28 20:47

针对会议记录效率低的问题，介绍一种利用VibeCoding在本地搭建会议助手的方法。该工具能将录音转为文本并区分发言人，通过AI分析提炼核心观点与待办事项。开发过程无需编程，通过明确需求、选择工具、编写提示词引导AI生成代码并调试即可完成，采用ClaudeCode与StepPlan组合，成本可控，支持长音频处理。

开会时间一长，大脑是不是就容易“掉线”？一边努力跟上发言人的思路，一边手忙脚乱地记笔记，会上频频点头，会后回想细节时却一片空白。

市面上的会议录音转文本工具虽然不少，但痛点十分明显：免费时长有限，长录音处理缓慢，最麻烦的是，拿到逐字稿后还得亲自整理重点、提炼待办事项。

这个周末，一个想法冒了出来：为什么不自己动手，借助 Vibe Coding 的方式，在本地搭建一个专属的会议助手呢？

效果如何？以一段多人对谈的播客录音为例。该助手不仅快速生成了逐字稿，还利用 AI 分析了会议要点，分别提炼出四位发言人的核心观点和后续建议，全程用时不到一分钟。

无论是梳理会议内容，还是用于听讲座、分析长视频，效果都相当令人满意。整个开发过程并不复杂，大致可拆解为四个清晰的步骤：

梳理核心需求
选择合适的 Vibe Coding 工具
将想法转化为提示词，交由 AI 生成代码
引导 AI 修复 Bug，逐步完善功能

接下来，我会将这一应用的完整搭建思路、工具配置以及给 AI 的关键提示词毫无保留地分享出来。即便你完全零编程基础，也能按此流程开发出属于自己的本地应用，彻底告别昂贵的订阅制软件。

01. 零基础开发本地会议助手

首先，明确我们对会议助手的能力需求：

直接上传会议录音，由 ASR（自动语音识别）模型转成文本，并尽可能区分不同发言人。
获取文稿后，利用大语言模型（LLM）分析内容，整理出核心信息。

选择工具

在 Vibe Coding 的世界里，选对工具，项目就成功了一大半。本次选用的是 Claude Code 搭配阶跃星辰的 Step Plan。

Claude Code 负责具体的代码编写、错误修复和接口调试；Step Plan 则提供所需的模型能力。Step Plan 的优势在于模型能力比较全面，既有适合内容分析的 step-3.5-flash 系列模型，也有专攻语音识别的 stepaudio-2.5-asr 模型，正好覆盖了开发需求。

Step Plan 的用量按 Prompt 次数计算，提供了相当友好的额度：5小时内限额100次，每周400次，性价比极高。

实际花费如何？花了半天时间密集调试，完成整个应用开发后，连每周额度的四分之一都没用完。

经过几段语音测试，一段40分钟左右的音频，API消耗仅约0.135元，后续的使用成本几乎可以忽略不计。

Vibe Coding 实战过程

工具就绪后，接下来就是将清晰的需求转化为提示词，交给 Claude Code 开始生成代码。

提示词示例：
我要开发一个本地运行的会议录音转文本和会议分析 MVP 应用，请你直接帮我从零搭建项目并写代码。
该应用安装或运行在用户本地电脑上，用户可在本地直接打开使用。音频文件、会议记录、转写结果、分析结果均优先保存在本机。语音识别和会议分析能力通过外部 API 调用完成。
应用目标是：用户上传一段会议录音，系统调用 ASR API 将录音转成文字，并尽量区分不同发言人。转写完成后，系统再调用 LLM API 对会议内容进行总结和分析，生成会议主题、核心结论、待办事项、风险点、争议点、每位发言人的主要观点和下一步建议。
技术栈使用 Next.js、TypeScript、Tailwind CSS。第一版先做成本地 Web App，运行在 localhost。数据存储使用 SQLite。音频文件保存在本地 uploads 目录。后续可再封装成 Electron 或 Tauri 桌面应用。
请实现这些核心功能：用户进入首页后可以看到历史会议列表，可创建新会议并上传音频文件。上传文件支持 mp3、wav、m4a、mp4。上传后后端保存音频文件到本地 uploads 目录，并创建一条会议记录，状态显示为处理中。
后端需要封装 ASR 调用模块，文件名可叫 lib/asr.ts。ASR API 的供应商、API Key、Base URL、模型名均从 .env.local 读取，方便后续切换不同 ASR 服务。环境变量包括 ASR_PROVIDER、ASR_API_KEY、ASR_BASE_URL、ASR_MODEL。ASR 返回结果要统一转换成项目内部格式，每一段包含 speaker、startTime、endTime、text。若 API 暂时无法返回 speaker，也要保留转写文本，并默认标记为 Speaker 1。
后端还需要封装 LLM 调用模块，文件名可叫 lib/llm.ts。LLM API 的供应商、API Key、Base URL、模型名均从 .env.local 读取，方便后续切换不同大模型。环境变量包括 LLM_PROVIDER、LLM_API_KEY、LLM_BASE_URL、LLM_MODEL。LLM 接收完整 transcript 后，需要输出稳定 JSON，包含 meetingTitle、summary、keyDecisions、actionItems、risks、disagreements、speakerInsights、nextSteps。actionItems 里需包含任务内容、负责人、截止时间、优先级。speakerInsights 需按发言人总结其主要观点、关注点和态度。
前端需要三个主要页面：首页会议列表、上传会议页面、会议详情页面。会议详情页要分成转写全文和智能分析两个区域。转写全文按时间顺序展示，显示发言人、时间戳和文本内容。发言人名称要支持手动编辑，比如把 Speaker 1 改成张三，把 Speaker 2 改成李四。智能分析区域展示会议总结、核心结论、待办事项、风险点、争议点、发言人观点和下一步建议。
请注意本地应用体验。上传后要显示处理中状态，ASR 失败要显示明确错误，LLM 分析失败也要保留已经完成的转写结果。不要因为分析失败导致整条会议记录丢失。页面风格要简洁清爽，适合工作工具，重点信息一目了然。
请生成完整项目结构，包括 package.json、SQLite 初始化逻辑、环境变量示例文件、API 路由、ASR 封装、LLM 封装、本地文件保存模块、数据库读写模块、类型定义、README 启动说明。
直接创建一个可本地运行的完整 MVP 项目。完成后请检查 TypeScript 类型错误、路由错误、环境变量读取错误、文件上传逻辑和 SQLite 存储逻辑。最后告诉我如何安装依赖、如何配置 .env.local、如何本地启动。

对于不熟悉代码的朋友来说，接下来的操作很简单：在终端里，基本上就是一路敲回车，选择“Yes”，让 Claude Code 自动创建文件、编写逻辑。

不到十分钟，一个极简风格的应用雏形就成功跑起来了，界面清爽，观感舒适。

兴致勃勃地上传了一段录音进行测试，结果迎面就是一个报错。

看不懂代码？遇到报错不用慌。直接把前端页面显示的红色报错信息复制下来，发给 Claude Code。

怎么创建会议会失败呢？

Claude Code 会自动排查问题并进行修复。

再次尝试，这次创建会议成功了，但处理音频时又卡住了。同时发现一个新问题：每次上传测试的失败记录都堆积在首页，显示为一堆“运行中”的会议任务。

于是，临时给 Claude Code 提了个新需求：

添加删除会议的功能。

五分钟后，再次点击会议详情页，页面右上角就多出了一个删除按钮。

清理完测试数据，继续解决核心卡点。这次录音转写文本成功了，但智能分析却提示：“转写成功，但分析失败: Error: LLM 返回内容为空。”

起初以为是某个接口出错，排查一圈后发现，问题很可能出在音频过长上。转写和分析耗时太长，单个请求容易超时。

于是让 Claude Code 查询一下对导入音频文件的时长、大小、转写字数有无限制。果然，症结就在于 API 请求时长。

Claude Code 的回复显示，单次处理的音频最好控制在10-30分钟，对应转写文本在5000-10000字符。若超出此范围，就需要提前进行切片处理。

既然不是模型能力问题，那就继续优化。毕竟日常会议动辄超过30分钟，如果每次都要手动预处理就太麻烦了。

将超过10分钟的长音频处理改成异步任务 + 切片处理。上传接口只返回 jobId，不要让前端一直等待请求完成。后端按 jobId 异步切片、转写、总结、合并结果。前端轮询 jobId 状态，展示上传、切片中、转写中、总结中、完成、失败。保留 maxDuration 配置，但不要依赖单个 API 请求长时间运行。