讯飞听见在区分多人发言方面,其实并不神秘。其核心依赖声纹识别、说话人管理以及智能上下文建模三项技术的协同工作,而非简单依靠音量大小或停顿长短进行切割。只要正确设置并规范录入声纹,即便面对三人以上的轮流发言、语速较快甚至偶尔重叠的情况,系统也能稳定地将每句话准确标注到对应发言人,帮助用户高效整理会议记录。

提前录入声纹,让系统“记住声音”
这是实现精准区分的基础。系统并非依靠猜测,而是通过比对声纹特征进行识别。建议在会议开始前,使用PC客户端完成声纹录入:
- 打开讯飞听见最新版客户端,点击左上角账号,进入「说话人管理」并选择「新增说话人」
- 输入真实姓名或易于识别的代号(例如“张总监”“李工”),按提示朗读约10秒的引导文本
- 确保环境安静,发音清晰且匀速,避免背景人声或键盘敲击声混入
- 每人一条声纹,最多支持10人,足以覆盖常规会议规模
录音时开启「区分说话人」并选对模式
实时录音时,必须主动启用该功能,否则系统默认会将所有内容合并为“发言人1”:
- 在网页端或客户端进入「实时录音」,点击【开始录音】前,先进入设置选项
- 勾选「区分说话人」,语言选择“普通话”或对应的方言模型(如粤语会议选择粤语)
- 更推荐直接选择「双人会谈」模式——该模式下功能默认开启,且实际适配多人场景(不仅限于两人)
- 麦克风选用内置或外接指向性设备,提升各发言者的声音分离度
录音后快速补录声纹,应对临时参会者
若未提前录入声纹也无须担心,会后可快速进行关联:
- 转写完成后,在文本页面选中一段明确属于某人的发言(建议选择30秒以上、无干扰的片段)
- 点击该段上方的「保存说话人」按钮,输入姓名并确认
- 系统会自动提取该段语音的声纹特征,后续相同声纹的内容将自动归类
- 对同一人的多个片段重复操作,还能增强模型对该声纹的识别鲁棒性
结合说话人筛选与总结,提升信息提取效率
区分出说话人只是第一步,真正发挥价值在于结构化使用:
- 点击左侧的说话人列表,可单独查看某人的全部发言,便于追责或汇总内容
- 使用「高精转写」服务后,系统会为每位说话人生成独立摘要(包含观点、承诺、待办事项)
- 点击说话人名称可以修改备注,例如将“发言人3”改为“市场部王磊”,方便团队协作查阅
- 搭配「打点」功能,在录音中实时标记关键结论,会后可按人加重点交叉定位
