新南威尔士大学联合谷歌研发血糖传感器提升糖尿病风险预测准确率

时间：2026-05-16 12:55

新南威尔士大学与谷歌研究院合作提出CGM-JEPA框架，利用连续血糖监测数据预测胰岛素抵抗与β细胞功能障碍。该模型通过抽象学习血糖波动规律，在多项测试中性能稳定且优于基准方法，尤其在迁移与泛化场景中表现突出。研究证明了日常血糖数据揭示深层代谢状态的潜力，为未来无创大规模。

2026年5月1日，一项由新南威尔士大学与谷歌研究院合作的研究成果以预印本形式发布（论文编号arXiv:2605.00933），为我们解读手腕上连续血糖监测仪（CGM）的数据，开辟了全新的视角。

一场关于“洞察血糖根源”的探索

全球数亿人日常佩戴的连续血糖监测仪（CGM），每五分钟记录一次皮下组织液的葡萄糖浓度，昼夜不息，绘制出精细的个人血糖波动图谱。对普通用户而言，这或许只是一条起伏的曲线；但在医学研究者看来，这条曲线深处，可能隐藏着比“血糖高低”更为关键的秘密——关于糖尿病真正的起源。

糖尿病的发生并非一日之寒。在血糖指标正式超标之前，身体往往已在两条不同的病理道路上悄然偏离：一是胰岛素抵抗，即细胞对胰岛素的信号“反应迟钝”，即使胰岛素分泌充足，血糖也难以被有效利用；二是β细胞功能障碍，即负责生产胰岛素的胰岛β细胞本身“功能衰退”，导致胰岛素分泌绝对不足。两者最终都表现为血糖升高，但其根本机制、后续干预及用药策略却截然不同。

棘手之处在于，这两种状态在常规的CGM血糖曲线上往往高度相似，如同不同病因引起的发烧，体温计读数却可能一样。传统的区分金标准是口服葡萄糖耐量试验（OGTT），需要多次静脉采血，过程繁琐、有创且成本高，难以用于大规模人群筛查。

因此，一个核心问题应运而生：我们手臂上那枚小小的CGM传感器，能否替代静脉采血，成为洞察深层代谢状态的“智能侦探”？

一、研究面临的双重挑战

研究伊始，便面临两个相互关联的难题。

首先是“信号表象”问题。同一个人的胰岛素抵抗状态，在医院静脉血检测、居家自由生活下的CGM读数、以及经过统计学处理的血糖密度图（Glucodensity）中，会呈现出不同的“面貌”。这好比试图通过一个人的行为判断其性格，但此人在不同场合的表现可能大相径庭。任何单一视角的数据，都只能捕捉真相的一个侧面，缺乏跨场景的一致性。

其次是“方法脆弱”问题。现有的各种分析方法往往“偏科”严重：某种方法在医院数据上表现优异，换到居家场景就效果骤降；或在特定人群上效果显著，换一批人便失灵。这种不稳定性，是医疗应用场景中无法接受的短板。

研究团队洞察到，这两个挑战实则同源：现有方法过于依赖特定数据模态的表面特征，未能捕捉到背后更本质、更稳定的生理规律。破局的关键，在于找到一种能超越单一数据视角、直达更高层次规律的表征方法。

二、一套全新的“抽象表征”框架

为此，团队提出了CGM-JEPA及其增强版X-CGM-JEPA。JEPA意为“联合嵌入预测架构”，原生于计算机视觉领域，此番被首次引入血糖时间序列分析。

理解JEPA，可以用“认路”来类比。一种方式是死记硬背沿途每个地标；另一种则是理解道路的空间结构与方向感。前者在熟悉环境里有效，一旦地标改变或起点不同，极易迷路。后者掌握的则是更高层次的抽象规律，适应性更强。CGM-JEPA追求的正是后者。

它的训练方式颇具巧思：将一天24小时的血糖数据切分为24个一小时片段，随机遮蔽其中一部分，然后让模型根据剩余可见片段，去预测被遮蔽部分在某个高维“抽象空间”中的坐标——注意，它预测的不是具体的血糖数值，而是那段数据在抽象语义空间中的位置。这一设计迫使模型必须去理解血糖动态背后的深层模式，而非记忆表面波动。

为防止这个抽象空间的“坐标系”在训练中崩塌（即所有预测都收敛到同一点），模型引入了指数移动平均机制来稳定“目标编码器”，犹如一位经验丰富的导师，不会因学生的短期波动而轻易改变评判基准。

X-CGM-JEPA则在此基础上增加了“第二视角”。除了从时间序列预测被遮蔽片段，它还同步学习如何从血糖时间序列预测对应的“血糖密度图”。时间序列擅长捕捉局部动态，密度图则能概括全天血糖值的全局统计分布。两者视角互补，信息互证。研究团队将这一理念称为“加法式抽象”。

三、数据来源与训练过程

模型的训练数据融合了两个来源：斯坦福大学CGM研究中的22名受试者居家数据，以及西班牙Colás团队发布的206名受试者数据集。合并后形成约413个“受试者-天”的无标签数据，总计约38.9万条五分钟间隔的血糖读数。关键在于，训练过程中模型完全不知道任何人的胰岛素抵抗或β细胞功能状态，它只是在海量血糖曲线中自主学习“血糖波动规律”本身。

评估则使用了斯坦福的另一项临床研究数据，严格分为互不重叠的“初始队列”（27人，有静脉血金标准标签）和“验证队列”（17人，同时拥有静脉血与多种CGM数据）。评估采用极其严格的统计方案：每种场景下进行20轮、每轮2折的交叉验证，总计40次独立评估取均值，以最大限度消除偶然性。

四、三种场景，全面检验

为了模拟真实世界可能遇到的各种情况，研究设定了三种检验场景：

1. 居家CGM场景：完全使用居家的CGM数据进行训练和测试，模拟未来大规模推广的理想情况。

2. 静脉血转CGM迁移场景：使用有金标准标签的静脉血数据训练，但用居家CGM数据测试。这模拟了现实困境——历史精准数据来自医院，而未来应用端只有消费级传感器数据。

3. 队列泛化场景：在一个队列上训练，在另一个完全不同的人群队列上测试，检验模型的跨人群泛化能力。

在每种场景下，模型都需要完成识别胰岛素抵抗和β细胞功能障碍两项任务。与之对比的基准方法包括PCA、专为血糖设计的GluFormer、通用时间序列模型TS2Vec，以及大型基础模型MOMENT和Mantis。

五、性能评估结果

结果呈现出清晰的格局。在六项任务（三种场景×两种代谢障碍）中，没有一个基准方法能在超过三项任务中保持前三，而CGM-JEPA家族则几乎在所有项目中稳居前两名。

具体而言，在“居家CGM”场景中，X-CGM-JEPA预测β细胞功能障碍的AUROC（可理解为综合辨别能力，1为完美，0.5为随机）达到0.946，比最强基准高出2.1个百分点。其F1分数（综合精确率与召回率）突破0.80大关，领先基准方法5个百分点，这在筛查应用中意味着更少的漏诊和误诊。

在最具挑战的“静脉血转CGM迁移”场景中，JEPA家族优势最为显著。对于β细胞功能障碍，X-CGM-JEPA的AUROC高达0.949，而某些基准方法已接近随机猜测水平。更重要的是，JEPA家族在此场景下的结果标准差最低，表明其不仅表现好，而且异常稳定。

在“队列泛化”场景中，X-CGM-JEPA取得了全文最大的绝对优势：对于β细胞功能障碍，其AUROC为0.855，领先最强基准6.5个百分点，同时模型稳定性提升了43%。这恰好印证了“加法式抽象”的价值——当时间序列数据本身稀疏时，密度图提供的全局视角能显著稳定表征质量。

六、深入表征空间：聚类结构的质量

除了看最终的“分类性能”，研究团队还检查了模型学习到的“表征空间”的几何结构是否清晰。

多项无监督聚类指标显示，在所有测试组合中，JEPA家族学习到的表征，其类内紧凑性和类间分离度均优于所有基准方法。更说明问题的是，在完全无标签的情况下，对表征空间进行聚类，所得分组与真实的临床标签吻合度最高。例如在初始队列静脉血数据上，X-CGM-JEPA的聚类结果与真实标签的吻合指数比最强基准高出28%。这意味着，模型仅从数据规律中，就已隐约“感知”到了潜在的病理分组。

七、血糖曲线的“时间地图”：关键信号藏于何处？

研究进一步分析了在OGTT测试的不同时间窗口，模型提取的信号对两种代谢障碍的区分力。结果与生理机制高度吻合：

对于胰岛素抵抗，判别信号峰值出现在摄入糖水后50-105分钟，因为外周组织清除葡萄糖的能力障碍在负荷早期便会显现。而对于β细胞功能障碍，峰值则出现在110-165分钟，因为胰岛素分泌不足的后果需要更长时间才能完全暴露。

一个有趣的现象是，X-CGM-JEPA在各时间窗口的峰值判别力反而略低于CGM-JEPA，但其下游分类性能却更高。这说明X-CGM-JEPA并未将“宝”全部押在某个特定时段，而是将判别信号更均匀地分布在整个时间轴上——这正是全局密度图视角带来的优势：当你了解全天的血糖分布概貌时，便无需过度依赖某一瞬间的读数。

八、公平性：提升弱势群体的检测效能

研究团队还细致评估了模型在不同性别、年龄、BMI和种族子群体中的表现差异。结果呈现出一种“劫富济贫”式的提升模式。

在“静脉血转CGM迁移”这一困难场景中，原本CGM-JEPA表现较差的亚群体，恰恰是X-CGM-JEPA提升最显著的。例如，在亚裔群体（n=5）的β细胞功能障碍检测上，AUROC从0.739提升至0.792；在胰岛素抵抗检测上，从0.669提升至0.723，提升幅度为所有群体中最大。而原本表现已接近天花板的高加索裔男性群体，其性能则保持稳定。

这意味着，X-CGM-JEPA并非简单地拉高整体平均分，而是通过弥补最薄弱环节来提升系统整体的均衡性与公平性。不同族群间性能差距最高被缩小了54%。其背后的逻辑在于，不同群体的血糖时序特征可能存在差异，但血糖的整体分布结构（密度图所捕捉的信息）可能更具普适性，从而为时序分析提供了有力的补充。

九、超参数敏感性分析

模型的稳健性同样经过了检验。针对训练时随机遮蔽时间片段的比例（25%、50%、75%），CGM-JEPA的性能波动微乎其微，X-CGM-JEPA在三种设置下甚至给出了完全相同的平均性能。这表明一天的血糖数据内在冗余度足够，模型总能捕捉到有效规律。

对于权衡时间序列与密度图损失的权重系数，其调整带来的性能变化远小于模型运行本身的随机波动。这证实了两种视角提供的是互补而非竞争的信息，模型对此并不敏感。

十、数据标注量需求分析

在标注数据量受限的模拟测试中，规律清晰可见：当标注数据极少时，所有方法都表现不佳。但当标注数据量达到50%或75%时，JEPA家族便拉开差距，领先2-4个AUROC百分点。更突出的是其稳定性：在50%标注数据下，JEPA家族结果的标准差比最强基准方法低了一到两个数量级。这意味着，只要有适量标注数据，JEPA家族给出的结论就具备高度可重复性。

十一、研究的局限性与未来展望

研究团队在论文中明确指出了几项关键局限，这份坦诚同样重要。

首先，评估队列规模较小（总计44人），虽然通过重复交叉验证增强了统计效力，但子群体分析（如按种族分组）的样本量很小，结论需谨慎外推。其次，所有数据均来自同一机构、同款设备，模型对不同品牌CGM、不同数据采集流程的泛化能力尚未可知。第三，模型目前仅针对两种代谢亚型，能否扩展至更多代谢指标仍是未知数。

团队特别强调：当前系统仅为科研原型，绝非医疗产品。它未经临床验证，不能用于任何形式的医疗诊断或决策。任何临床应用都必须经过正式的监管审批流程。

归根结底，这项研究的重要意义在于证明：通过一种“重结构、轻数值”的智能解读方法，日常CGM数据确实有能力揭示更深层的代谢状态差异，且这种方法具备跨场景的稳定性。这并非宣告可以立即用血糖手环替代医院检查，而是清晰地指明了一条可行的技术路径。在积累更大规模、更多样化数据的基础上，无创、连续、廉价的血糖监测设备，有望成为未来大规模代谢风险筛查与糖尿病早期分型的核心工具。从每日悄无声息积累的血糖数字中，提前捕捉疾病来临的微弱信号，其技术可行性正变得越来越清晰。

Q&A

Q1：连续血糖监测仪（CGM）预测代谢亚型和传统医院静脉血检测相比，准确率差多少？

A：根据本研究，在最具挑战的队列泛化场景下，X-CGM-JEPA对β细胞功能障碍的AUROC为0.855，领先最强基准方法6.5个百分点。需要明确的是，静脉血检测（OGTT）仍是产生金标准标签的方法，而CGM-JEPA是用这些标签训练模型，进而对新的CGM数据进行推断，两者并非简单的“替代”关系，而是“训练源”与“应用端”的关系。

Q2：X-CGM-JEPA中的“血糖密度图”是什么，普通人能看懂吗？

A：血糖密度图是一种将全天血糖曲线转化为统计分布可视化的方法。你可以把它想象成一个人一天血糖的“足迹图”：横轴是血糖值，纵轴是血糖变化的速度，颜色深浅代表处于这种“状态”的频率。它比单纯看一条起伏的曲线，能更直观地展示一个人的血糖主要在哪个范围波动、变化是平缓还是剧烈，有助于理解血糖的整体模式。

Q3：CGM-JEPA能直接用于临床诊断胰岛素抵抗吗？

A：目前绝对不能。正如论文明确指出的，这只是一个科研原型，尚未经过严格的临床验证，不能用于任何医疗诊断或决策。现有的评估基于小规模（44人）、单中心、单设备的数据。若要走向临床应用，必须在更大规模、更多样化的人群和设备上进行验证，并通过医疗器械监管机构的审批流程。

来源：https://www.163.com/dy/article/KSU0C1LD0511DTVV.html

传感器

上一篇中芯国际一季度财报发布：营收25.05亿美元环比微增0.7% 下一篇华硕ROG二十周年纪念主板明日发布会正式揭晓

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。