讯飞听见本身并不支持直接输出结构化的会议纪要——这是很多人的一个误解。但话说回来,它能为结构化产出打下非常扎实的基础。关键在于三点:转写准不准、导出干不干净、后续提炼有没有可靠的依据。真正要实现结构化,需要它先完成三件事:把声音变成可读的文本,把文本按发言人分清楚,再把文本以方便后续处理的形式导出来。

下面四个环节,是经过大量实践验证的可行路径。
一、录音阶段就埋好结构化伏笔
结构化不是会议结束后硬凑出来的,而是在按下录音键的那一刻就开始设计的。重点做三件事:
- 开启“区分发言人”功能。哪怕只有两个人对话,这个设置也能让AI自动标出A/B角色,省去后期人工标注的混乱。
- 选择“中文-会议场景”语言模型。它对“接下来由张工负责”、“请李总在7月10日前反馈”这类句式更敏感,转写命中率明显高于通用模型。
- 会议中尽量避免多人同时插话、语速过快或背景音乐干扰。这些噪音会直接影响说话人分离和关键词识别的准确率,后期补救成本很高。
二、导出前清洗文本,让AI提炼不跑偏
讯飞听见的转写准确率不低,但再准的机器,也难免留下语气词、重复句、断句碎片这些“毛边”。如果直接把原始转写结果丢给大模型(比如通义千问、DeepSeek),很容易出现责任错配、日期误判——模型会从语气词里“脑补”出不该有的内容。建议导出后先手动清理一遍再使用:
- 删除所有时间戳和括号备注(如【00:12:34】【笑声】),只保留纯发言内容。
- 合并明显被截断的短句。比如“这个方案我建议……”“下周三前定稿”,连成“这个方案我建议下周三前定稿”,完整语义才能被模型正确理解。
- 统一发言人格式。把“张伟说:”“张工:”“张经理:”全部改为“张伟:”,便于后续模型识别责任人。
三、用标准提示词触发结构化输出
导出TXT后,复制到任意支持长文本的大模型对话框,用明确的指令约束输出格式。推荐这个四段式模板:
- 【结论】仅列出会议中明确达成的决策项,每条不超过20字。
- 【行动项】必须含可执行动词(如“提交”“修订”“协调”),不含模糊表述(如“考虑”“跟进”)。
- 【责任人】严格按录音中间出现的姓名填写,不缩写、不替换成职位。
- 【截止时间】只提取原文中带年月日的明确日期,无则填【待确认】。
例如输入:“请按以上四字段格式整理以下会议文本,不添加、不推测、不解释。”——这个指令本身就能很大程度上约束模型不乱发挥。
四、人工校验时盯住三个硬指标
AI输出只是初稿,最终结构化质量取决于最后一步校验。重点核对三个硬指标:
- 每个【责任人】是否能在原始录音里找到对应的发言片段。
- 每个【截止时间】是否与录音中说的日期完全一致。比如“月底前”不算,必须是“6月30日”这种明确表述。
- 所有【结论】是否都有录音依据,而非模型自行归纳的概括性描述。
校验时建议打开讯飞听见播放器,定位到摘要条目对应的时间段,逐字比对转写原文。发现“王莉”被识别成“王丽”就当场改掉,这类细节最容易在最后一步被忽略,但恰恰是决定纪要可信度的关键。
