讯飞听见能够智能识别不同的发言者,这一功能听起来颇为炫酷,但其背后的技术原理其实并不复杂——核心在于声纹识别结合AI聚类分析。它并非简单依赖音量高低或说话停顿来划分段落,而是真正通过声音的独特特征将每个人“辨认”出来。只要现场收音清晰、大家不抢话,即便是三人以上的会议,系统也能稳定地将角色区分清楚,转写时直接标注“张三”“李四”,无需手动对号入座。
不过,这一功能默认并未开启,需要你主动进行设置。具体操作步骤如下:
- 网页端或PC客户端进入【实时录音】页面,在点击【开始录音】之前,先点击设置按钮,在弹出的面板中勾选“区分说话人”。
- 或者直接选择“多人会议”模式——该模式比“双人会谈”更适合三人及以上的场景,并且“区分说话人”默认已启用。
- 手机App端的话,在录音界面右上角找到齿轮图标,进入设置页,打开“自动识别发言人”开关即可。
话虽如此,自动分人的实际效果很大程度上取决于设备质量和现场条件。以下几点值得特别注意:
- 尽量避免多人同时讲话——交叉发言越多,声纹边界就越模糊。最好养成“一人说完再换人”的会议习惯。
- 每人尽量使用独立的麦克风,或者保持固定位置——距离和角度的显著变化会影响声纹建模的稳定性。
- 提前录入声纹是个好办法:在客户端的“说话人管理”中,让常参会的同事朗读10秒引导语,系统会存储专属声纹模板,后续的识别准确率会显著提升。
- 环境噪音要控制好——空调、投影仪、键盘敲击等持续底噪,讯飞的自研降噪算法能够过滤掉不少,但突然的关门声、手机铃声这类突发噪声仍可能干扰判断。
识别结果并非一成不变,会后还可以灵活调整:
- 转写完成后,点击任意一段文字左侧的“发言人1”“发言人2”标签,可以直接修改为真实姓名或角色名,例如“财务部王经理”。
- 选中某段内容,点击“保存说话人”,系统就会将这段语音特征绑定到您输入的名字下,下次再出现类似声纹时自动匹配。
- 使用【说话人筛选】功能,可以只查看某个人的全部发言,方便核对职责分工或待办事项。
- 开启“高精转写”后,还能一键生成每位发言人的内容摘要——比如领导的决策要点、技术同事的风险提示,一目了然。
最后聊聊适合的场景。并非所有会议都需要开启区分说话人功能,但以下几类会议最好别省:
- 跨部门协调会——市场、研发、运营轮流汇报,观点交织,分角色查看纪要才能厘清责任线。
- 客户洽谈或招标答疑——甲方乙方交替发言,关键承诺和质疑必须归属明确,避免后续扯皮。
- 内部评审会(比如产品原型评审)——设计师、测试、PM各说各话,结构化呈现便于追溯修改依据。
- 含方言或外语的会议——讯飞支持12种方言加10种外语混合识别,配合分人标注,连“粤语提问+普通话回答”也能理清楚。

