游乐游手机版
首页/AI教程/文章详情

谷歌发布咳嗽AI模型HeAR,一声咳嗽揭示健康状况

时间:2026-07-03 15:29
谷歌推出HeAR生物声学基础模型,利用3亿音频数据训练,包括1亿咳嗽声。该模型能精准识别咳嗽等健康声学信号,在肺结核筛查等任务中表现优异,且不受录音设备影响,为疾病早期检测提供更易获取的工具。

咳嗽声中藏着的健康密码

根据世界卫生组织2021年发布的统计数据,全球十大主要死因累计导致3900万人死亡,占当年全球总死亡人数(6800万)的57%。这些致命威胁的背后,最突出的“元凶”主要集中于两大类疾病:心血管疾病(如缺血性心脏病、中风)和呼吸系统疾病(如肺结核、慢性阻塞性肺病、下呼吸道感染)。

值得关注的是,呼吸系统疾病引发的咳嗽声或呼吸音,实际上暗藏着大量关于我们身体健康状况的线索。临床医生早已学会利用带有“喘息”特征的咳嗽声来诊断百日咳,甚至能通过患者临终前的呼吸声音监测急性心血管事件的发生。

那么问题来了——在人工智能时代,我们能否借助技术的力量,从这些声音数据中提取健康信号,从而更早、更精准地掌握自己的身体状态?

来自谷歌、赞比亚传染病研究中心结核病科的研究团队,在这个方向上迈出了至关重要的一步。他们合作推出了一款名为HeAR(Health Acoustic Representations)的生物声学基础模型,简单来说,就是让机器学会“听懂”人类声音,并从中捕捉疾病的早期预警信号。相关研究论文已发表在预印本网站arXiv上。

为了确保HeAR的性能,研究团队从海量、多样化且经过去识别化的数据集中,精心挑选了3亿个音频数据用于模型训练,其中特别使用了大约1亿个咳嗽声音专门训练“咳嗽模型”。

最终成果相当可观:HeAR能够精准识别与健康相关声音中的模式,在广泛的测试任务中平均排名显著高于其他模型,并且具备跨麦克风泛化能力——也就是说,不会因为录音设备不同而影响识别效果。更为难得的是,利用HeAR训练的模型只需更少的数据就能达到高性能,这在医疗研究领域极其宝贵,毕竟医疗数据往往稀缺且珍贵。

StopTB Partnership 数字健康专家Zhi Zhen Qin评价道:“像HeAR这样的解决方案,将使人工智能驱动的声学分析在肺结核筛查和检测中发挥巨大作用,为最需要的人群提供一种影响更小、更易获取的工具。”

研究团队希望未来能进一步推进在肺结核、胸部、肺部及其他疾病领域的诊断工具和监测方案。

事实上,印度呼吸健康公司Salcit Technologies已经基于HeAR开发了一款名为Swaasa的产品,通过AI分析咳嗽声音来评估肺部健康状况。目前,他们正在探索如何利用HeAR进一步扩展其生物声学AI模型的能力。

一声咳嗽,即可检测疾病

HeAR系统由三个核心部分构成。通过自我监督学习,它利用大量未标注的音频数据学习通用的音频表示,并能迁移应用到各种健康声学任务中。通俗地说,就是让机器在没有标准答案的情况下,自主学会从声音中寻找规律。

图|HeAR 系统概况

在数据采集环节,研究团队采用了一个健康声学事件检测器。该检测器本质上是一个多标签分类卷积神经网络(CNN),用于识别2秒音频片段中是否存在6种非语音健康声学事件:咳嗽、婴儿咳嗽、呼吸、清嗓子、笑声和说话。训练数据来源于FSD50K和FluSense数据集,通过音频片段中的标签(如“咳嗽”、“打喷嚏”、“呼吸”等)进行标注。

论文使用了两个数据集:第一部分是从30亿个公共非版权YouTube视频中提取的2秒音频片段,共计3.133亿个片段,相当于约174000小时的音频。这些片段均经过了健康声学事件检测器的筛选。第二部分由赞比亚传染病研究中心提供,包含来自599名疑似肺结核患者的咳嗽音频录音以及胸部X光片。

研究团队采用掩码自编码器,在包含3.13亿个两秒钟长音频片段的大型数据集上进行训练。通过线性探测,在跨越6个数据集的33个健康声学任务基准上,HeAR在所有健康音频嵌入模型中的表现达到了当前最佳(SOTA)。

图|HeAR 在33个健康音频任务中取得了最高的平均排名(MRR = 0.708),全面超越了其他基线模型。

在FSD50K和FluSense数据集上,HeAR的表现同样优于其他模型,特别是在FSD50K训练的模型中排名第二。

图|健康声学事件检测任务在FSD50K和FluSense数据集上的性能比较。

在14个咳嗽推理任务中,HeAR在其中的10个任务上表现优于基线模型,涵盖人口统计和生活方式判断。在TB和CXR任务中,它的表现与最佳模型旗鼓相当。

图|咳嗽推理任务的性能比较。

在SpiroSmart数据集上,HeAR在5个肺功能测试任务中的4个以及性别分类任务中表现优于基线模型。

图|肺功能测试任务的性能比较。

值得一提的是,HeAR在CIDRZ数据集上的表现不受不同录音设备的影响,对不同设备具有鲁棒性。此外,即使训练数据较少,它同样能取得良好性能——在标注数据稀缺的医疗研究中,这一点极具优势。

当然,HeAR也存在一定局限性。例如,线性探测方式难以完全发挥模型的潜在性能;部分数据集规模较小且存在类别不平衡问题;另外,HeAR这类模型体量较大,在手机等移动设备上运行仍有难度。

研究团队表示,未来可以考虑通过微调模型或加入更多特征来提升性能,收集更多数据并改进数据预处理方法,也可以研究模型压缩和量化技术,使模型能够在本地设备上运行。

AI辅助诊断疾病,大有可为

从辅助医生到独立诊断疾病,人工智能在医疗领域的应用日益广泛,潜力也在不断被挖掘。

今年6月,伦敦帝国理工学院和剑桥大学的研究团队训练了AI模型EMethylNET,通过观察DNA甲基化模式,从非癌组织中识别出13种不同类型的癌症(包括乳腺癌、肝癌、肺癌和前列腺癌等),准确率高达98.2%。

7月,波士顿大学研究团队及其合作者开发的AI工具,有望同时诊断10种不同类型的痴呆症,将神经科医生的诊断准确率提升了26%以上。

最近,针对儿童的“隐形杀手”自闭症,AI也取得了突破。卡罗林斯卡学院研究团队开发的多模态数据分析AI模型,不仅能在患儿12个月左右时发现早期迹象,对两岁以下儿童识别的准确率达到80.5%,而且整个过程只需要相对有限的信息。

可以预见,在不久的将来,AI将帮助人类诊断更多疾病,为医疗健康领域带来更多可能性。

来源:https://www.aiagiai.com/3732.html
上一篇AI提速数千倍发现降温新材料手机电脑告别发烫 下一篇支付宝大模型务实派推动AI跑腿落地应用
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
批处理BAT入门教程第一篇
AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。

从零开始批处理命令For循环详解与实战案例
AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。

批评你的人是你生命中的贵人
AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。

测试人员角色定位与职责详解
AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。

经营成功测试生涯的实用方法与策略
AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通