TurnSense 语音判停模型开源 47M 参数性能超越 7B
你的语音助手又抢话了。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
用户刚说“我想订那个……就是上次去过的那家……”,话还没说完,AI已经兴冲冲地回了一句“好的,请问您想订什么?”
“帮我查一下那个……”——话音未落,AI拿着半句话就开始生成回复了。
更让人哭笑不得的是:用户咳嗽一声,AI开始正经回答一个不存在的问题;用户清了清嗓子,AI说“好的,我来帮您处理”;旁边有人关门,AI又开口了。
这些问题的根源,往往不是背后的大语言模型不够聪明,而是系统根本不知道什么时候该接话——更准确地说,它分不清哪些声音是“有效语音”,哪些是“无效噪声”。
现有语音判停方案为什么不行
目前主流的语音助手,其判停逻辑大多基于VAD(语音活动检测)加一个固定的静音阈值——检测到N毫秒没声音,就认为用户说完了。但这个方案存在两个致命缺陷。
首先,它无法区分“思考中的停顿”和“真正的说完”。人在组织语言时会犹豫、会思考,1秒钟的沉默绝不代表一句话的结束。
其次,它分不清“人声”和“噪声”。VAD检测的是“有没有声音活动”,而不是“有没有语言意图”。咳嗽、叹气、清嗓子,甚至环境中的碰撞声,都可能被VAD标记为语音活动。这些声音经过语音识别(ASR)后,极易产生幻觉文本,从而触发大模型生成一个莫名其妙的回复。在真实部署环境中,特别是在车载、开放办公、户外等场景下,这类由噪声误触发的问题,其频率远超想象。
行业已经开始转向模型判停——用深度学习模型来判断用户是否说完。但现有的模型方案普遍面临一个三角困境:精度、成本和速度,三者难以兼得。
例如,7B参数量的方案精度不错、延迟也低,但需要GPU,部署成本高昂。850M参数的方案精度好,但推理延迟接近200ms,同样依赖GPU。而8M参数的轻量方案虽然能在CPU上运行,但F1分数只有70%出头,难以满足生产环境的要求。
更重要的是,这些方案几乎都只解决“说完vs没说完”的二分类问题,对于非语义声音(如咳嗽、叹气、噪声)没有专门的处理能力。它们要么将其误判为“说完了”从而触发回复,要么只能依赖前置的ASR转写结果进行间接判断,导致链路冗长且不可控。
可以说,如果你想要一个不依赖GPU、精度达标、同时能有效拦截噪声的语音判停方案,市场上几乎没有选择。

TurnSense:不用GPU也能打,噪声一条不漏
最近,百融Baiji Team开源了TurnSense——一个47M参数的语音判停模型。它直接以语音为输入,在纯CPU环境下跑出了与7B GPU方案持平甚至略超的精度。
这个模型核心回答一个问题:用户这段语音,是说完了、没说完,还是根本无需回复?
三种输出,对应三种截然不同的系统行为:
● Complete(说完) → 立即响应。用户表达了完整的意图。
● Incomplete(未说完) → 继续等待。用户还在组织语言,只是暂时停顿。
● Invalid(无效) → 静默忽略。咳嗽、叹气、清嗓子、打哈欠、环境碰撞声……一切不构成对话意图的声音,系统直接当它不存在。
这个三分类设计绝非锦上添花,而是解决了一个工程上的关键痛点。在传统方案中,非语义声音需要走完VAD → ASR → 文本判断的完整链路,才有可能被过滤(而且还不一定能过滤掉)。TurnSense则在语音层面就直接拦截,根本不给下游误触发的机会。整条链路的噪声抑制,从“末端补救”变成了“源头拦截”。
关于Invalid的边界,这里需要说明一下:如果用户只是发出一声“嗯”作为回应,TurnSense会怎么判?它的判断依据是这段语音是否携带需要AI响应的意图。纯粹的反馈性语气词(如单独的“嗯”、“啊”)会被归为Invalid,不会触发AI回复。但如果“嗯”后面紧跟着内容(例如“嗯,我想问一下……”),VAD会将其作为一整段语音送入,模型则会根据整段内容判断为Incomplete或Complete。
在包含728条非语义声音的测试集中,TurnSense在Invalid类别上做到了100%的精确率(Precision)——这意味着咳嗽声永远不会触发一次AI回复。一次都不会。

直接看数据
在300条真实中文对话数据(easyturn_real_test_ZH)上的语义判停能力对比如下:

在728条非语义声音测试(non_semantic_test)上的噪声拦截能力对比如下:

几个值得注意的点:
在语义判停方面,TurnSense的F1分数比Easy-Turn高了约0.3个百分点,比TEN-Turn高了约3个百分点。0.3个百分点的优势不算碾压,但关键在于,它是在CPU上跑出来的。Easy-Turn需要GPU,且延迟是TurnSense的3倍多。在达到同等精度的前提下,两者的部署成本差了一个数量级。
在噪声拦截方面,其他三个对比模型根本不具备这个能力——它们只做二分类(说完/没说完),遇到咳嗽声只能“硬猜”一个类别。TurnSense是目前唯一在模型层面具备非语义声音识别能力的判停方案。
TEN-Turn的延迟确实比TurnSense更低(17ms vs 54ms),但它需要一张GPU。如果你有充足的GPU预算且并发量不高,TEN-Turn是一个合理的选择。但如果你需要将模型部署在端侧、需要支撑高并发、或者不想为判停功能单独购买GPU——那么TurnSense是目前唯一精度达到生产标准的纯CPU方案。

为什么47M能打赢7B?
判停本身是一个极窄的任务——输入是一段几秒的语音,输出是三选一的分类。它不需要世界知识,不需要长链推理,也不需要理解复杂的上下文。用7B模型来做这件事,就像开卡车去送一封信,99%的运力都被浪费了。
但“用小模型做窄任务”并不是新思路,比如Smart-Turn也只有8M参数,为什么它的F1分数只有70%左右?差距到底在哪?
主要在于两个方面。
第一是训练数据。TurnSense使用了大规模中英文真实对话语音作为训练数据,覆盖了口语中大量的犹豫、停顿、重复、自我修正等现象。同时,训练集中包含了大量真实环境录制的非语义声音样本——各种咳嗽、叹气、环境噪声、设备杂音——这让模型学会了区分“人在说话”和“只是有声音”。相比之下,Smart-Turn的训练数据以朗读式语音为主,遇到真实口语场景和复杂噪声环境时,泛化能力就显得不足。
第二是模型容量的“甜点”。8M参数太小,无法充分编码语音中的韵律模式和语义完整性特征。7B参数又太大,大量参数被浪费在这个任务根本用不到的能力上。47M是团队经过多轮实验找到的平衡点——它足够大到覆盖判停所需的全部信号(包括区分语义内容和非语义噪声的能力),又足够小到让每个参数都在高效工作。
这个数字并非灵光一现的产物,而是几十次对照实验的结果。
快速使用
典型的接入路径是:VAD检测到语音段结束 → 提取音频特征 → 送入TurnSense → 根据结果决定响应、等待或忽略。
这里的关键区别在于:传统方案中,所有经过VAD的音频都会送入ASR,ASR产生的幻觉文本可能触发下游误响应。接入TurnSense后,被判定为Invalid的音频会直接被丢弃,根本不会进入ASR环节,从源头切断了噪声误触发的链路,同时也节省了ASR的算力开销。
由于TurnSense直接处理语音,它与ASR是并行关系。你可以在TurnSense进行判停的同时,让ASR开始转写,两者同时运行。当TurnSense返回“Complete”时,ASR大概率也已经出结果了,整体响应延迟取两者中的最大值,而非累加值。当TurnSense返回“Invalid”时,则直接丢弃ASR结果,不浪费下游任何算力。
模型以标准的ONNX格式提供(包含FP32和INT8版本),不绑定任何特定的训练框架。无论是Python、C++、Ja va还是Rust,你的技术栈是什么就用什么。INT8版本大小约50MB,一台普通云服务器就能跑生产流量,也能轻松打包进车机、手机或IoT设备。
从克隆代码到获得第一个推理结果,大概只需要3分钟:
git clone https://github.com/Bairong-Xdynamics/TurnSense.git
cd TurnSense
pip install -U numpy onnxruntime torch librosa soundfile pandas scikit-learn huggingface_hub
首次运行时会自动从Hugging Face下载模型。你也可以手动操作:
git lfs install
git clone https://huggingface.co/brgroup/TurnSense
运行推理:
python infer.py
实际效果
我们将TurnSense接入一个开源语音助手框架进行了内部初步测试(100轮对话,涵盖闲聊、任务指令、多轮问答三类场景,测试环境包含正常室内和模拟车载噪声):

虽然样本量不大,结果仅供参考方向性趋势(后续会放出更大规模的评测报告),但三个方向性的结论应该是明确的:误打断现象大幅减少;噪声误触发从11次降到了0次,Invalid拦截能力在工程上验证了实验室指标;由于不再需要固定等待500ms的静音窗口,判停与ASR并行后,实际响应速度反而更快了。
噪声误触发归零这一点,对于特定场景的意义尤为突出:车载场景中路噪和乘客对话频繁;智能客服场景中用户的叹气和清嗓子是高频事件;智能音箱场景中电视声、孩子玩闹声随时存在。在这些场景下,一次误触发就可能彻底打断用户体验。
它不能做什么
需要明确的是,TurnSense也有其适用范围和局限性:
它不处理多轮上下文。TurnSense只看当前这一段语音,不参考对话历史。在大多数场景下,单段音频的韵律和内容信息已经足够判断,但确实存在一些边界情况需要结合上下文才能准确判断。
它以中英文为主。当前的训练数据和评测主要基于中英文,其他语种的效果尚未得到充分验证。
它不替代VAD。TurnSense是语义层的判停,仍然需要前置的VAD来完成语音端点检测。VAD告诉你“这段声音停了”,TurnSense则告诉你“这段话说完了没”以及“这段声音是不是话”。
它对音频质量有基本要求。在极端噪声环境或严重失真的音频下,判断可能会受到影响。但对于正常通话质量和设备录音,则没有问题。
关于百融Baiji Team
百融Baiji Team专注于语音交互基础设施,目标是让语音助手在真实环境中真正变得好用。团队核心成员来自国内头部语音AI公司,拥有多年对话系统工程与研究经验。TurnSense是团队的首个开源项目,后续还会在语音交互的其他关键模块持续输出。
链接
● 许可证:Apache License 2.0
● 评测框架和数据均随代码开源,支持一键复现所有指标
● 问题反馈和讨论:GitHub Issues / Discussions
项目采用Apache 2.0协议,商用免费。如果用了觉得好,欢迎在GitHub给个star;如果使用中遇到问题,也欢迎提个issue,团队会跟进处理。
相关攻略
你的语音助手又抢话了。 用户刚说“我想订那个……就是上次去过的那家……”,话还没说完,AI已经兴冲冲地回了一句“好的,请问您想订什么?” “帮我查一下那个……”——话音未落,AI拿着半句话就开始生成回复了。 更让人哭笑不得的是:用户咳嗽一声,AI开始正经回答一个不存在的问题;用户清了清嗓子,AI说“
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语” 当地时间10月30日,OpenAI放出了一个新动作:开源一个名为SimpleQA的全新基准测试工具。这个工具的核心使命很明确——给语言模型“考考基本功”,精准衡量它们回答简短事实性问题的能力。这相当于为AI的“记忆力”和“严谨性”
千问开源FlashQLA:为线性注意力算子注入“硬核”效率 近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升
商汤科技刚刚正式发布并开源日日新SenseNova U1 系列原生理解生成统一模型 商汤科技这次的动作,可以说是为多模态AI领域投下了一枚“深水冲击波”。他们正式开源了日日新SenseNova U1系列模型,而它的核心,在于一个根本性的架构革新。 这个模型基于商汤今年三月自主研发的NEO-unify
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源 北京时间今日凌晨,AI领域又迎来一个重磅消息。DeepSeek正式开源了其全新的视觉多模态模型 Janus-Pro-7B。这可不是普通的更新,从已披露的测试结果看,它在GenEval和DPG-Benc
热门专题
热门推荐
以太坊网络交易活跃度是衡量其生态健康与市场流动性的关键指标。本文分析了影响ETH成交活跃度的核心因素,包括网络性能、Gas费用及用户行为。通过梳理当前主流交易平台的特点,展望了至2026年可能影响排名的技术趋势与市场格局,为参与者提供长期观察视角与决策参考。
欧易OKX是全球知名数字资产交易平台,提供现货、合约等多种交易模式及理财服务。用户可通过官方网站或官方应用商店下载正版App,确保访问安全。注册需完成手机或邮箱验证及身份认证。平台功能包括多元交易、专业行情工具、多重安全验证及跨平台数据同步,保障用户资产安全与操作便捷。
选择可靠平台是加密货币投资的关键。币安交易量领先,OKX衍生品突出,Gate io资产丰富。火币在亚洲市场稳定,Coinbase以合规安全著称。Bybit专注衍生品,Bitget提供复制交易功能。KuCoin资产种类多,Kraken安全体系完善,MEXC支持资产超2000种。各平台特色不同,需根据自身需求综合选择。
本文从BTC现货深度这一核心指标出发,探讨其对衡量交易平台综合实力的重要性。通过分析深度数据的构成与意义,并结合市场流动性、用户信任与平台生态等维度,对2026年主流数字资产交易所的潜在格局进行展望。深度不仅是交易体验的保障,更是平台技术、风控与长期运营能力的集中体现,是投资者选择平台时不可忽视的关键参考。
火币HTX全球站提供官方网址入口及安卓与iOS客户端安装指引。安卓用户需从官网下载安装包,并在系统设置中允许安装。iOS用户可直接通过AppStore下载安装。应用安装后需注册账户并完成邮箱验证,之后即可登录进行数字货币交易。





