医疗人工智能带来的差异化隐私风险

时间：2026-06-29 15:16

医疗AI模型面临的成员推断攻击对个体患者隐私造成差异化风险。整体攻击成功率掩盖了部分患者近乎完美的暴露风险。训练集中代表性不足的群体承受不成比例的高攻击成功率。模型容量增大会显著增加高度脆弱患者数量。差分隐私可缓解风险但需患者级核算。

医疗AI模型本可以成为全球诊断服务的翻跟斗，但问题在于——训练这些模型需要大量敏感的患者数据，而这些数据恰恰可能通过隐私攻击暴露出去。以往的研究习惯把攻击成功率汇总到数据集整体来看，也就是说，把所有记录放在一起算一个平均值。这种做法掩盖了一个关键事实：一个患者往往会向训练集贡献多条高度相似的记录，那么单个患者面临的隐私风险到底有多高？这个问题直到现在都没有得到充分回答。

一项最新的研究较早地把目光聚焦到患者级别的隐私审计上，重点考察的就是成员推断攻击——攻击者试图判断某位特定患者的数据是否被用于训练模型。研究团队在多个医疗数据集上发现，即使整体攻击表现看起来跟随机猜测差不多，但对于某些个体患者来说，攻击成功率可以接近完美。更值得警惕的是，随着模型容量变大，处于高攻击风险中的患者数量显著增加；同时，按疾病状态、自我报告种族、保险类型、性别或影像采集协议分组时，那些代表性不足的患者群体承受了不成比例的高攻击成功率。说白了，只盯着整体隐私指标，会严重低估个体的真实风险。当然，目前还不清楚这种差异化风险会不会延伸到其他类型的攻击，所以未来需要开发能覆盖所有数据贡献者的风险评估和缓解技术。

医疗AI在专业医疗资源稀缺的地区尤其有价值，它能帮助扩大诊断能力和服务可及性。但部署AI也带来了新的安全与隐私挑战。当不可信用户能通过预测接口访问模型时，他们不仅可以窃取模型参数，还能实施隐私攻击，推断出训练数据中包含的敏感信息。成员推断攻击就是一种典型手法——判断某位患者的数据是否被纳入训练集。成员身份本身是否构成隐私泄露，取决于训练人群和部署场景。比如，一个预测抗癌免疫治疗疗效的模型，如果攻击者能判断某人属于该训练集，那几乎等于间接获知此人患有癌症。

随着越来越多的医疗AI模型用敏感患者数据训练并进入临床或公共应用场景，系统性的隐私风险评估变得迫在眉睫。但既有研究总是把攻击成功率汇总到数据集整体层面，这种做法把风险平均化了，掩盖了记录级和患者级的差异。现实中患者往往贡献多条高度相似的记录，单个患者承受的风险可能远高于整体指标显示的水平。考虑到医疗数据是网络犯罪的重点目标，而单纯的伪匿名化已经越来越不足以保护高维医疗数据中的个体身份，弄清楚AI隐私攻击对单个患者的真实威胁非常必要。

这项研究明确表明：如果医疗AI模型在缺乏保护措施的情况下部署，会给数据贡献者带来显著的隐私风险。研究团队对多个用于标准诊断任务的监督分类AI模型进行了患者级隐私审计，使用了七个大型真实世界医疗数据集，涵盖医学影像、心电图和电子健康记录等多种类型。结果发现，成员推断攻击的成功率在患者之间分布极不均衡——有些患者几乎完全暴露在攻击之下，另一些则几乎不受影响；而训练集中代表性不足的患者群体，往往在最容易受到攻击的记录中被过度代表。

方法

研究团队围绕医疗诊断模型开展成员推断攻击审计。他们用多个真实世界医疗数据集训练目标模型，数据类型包括胸部X线影像、皮肤病图像、眼底图像、乳腺X线摄影、心电图以及急诊电子健康记录。对于每个数据集，他们训练了大量目标模型，每个模型使用随机患者子集作为训练数据，从而可以比较某条记录被纳入训练和未被纳入训练时，模型输出置信度的差异。这种差异被用来估计记录级成员推断攻击成功率，再把同一患者所有记录中的最高风险作为患者级风险。研究还模拟了现实攻击场景——攻击者只能通过预测接口访问模型，甚至只有有限的参考模型或部分目标记录信息。此外，他们比较了不同模型容量、不同差分隐私保护强度以及不同患者亚组之间的风险差异，以判断隐私风险如何随模型规模、隐私保护和群体代表性变化。

结果

通过简单假设检验攻击AI模型

很多AI模型在部署时会通过预测接口向用户开放服务。比如用户输入一张胸部X光片，模型返回患肺炎的概率。这种黑盒访问看似有限，但不可信用户仍然可以仅凭模型输出实施成员推断攻击。攻击的基本思想是判断某条目标记录是否属于模型训练集。之所以能成功，是因为AI模型通常会对训练数据给出略高于非训练数据的预测置信度。

这项研究关注的是当前比较先进的似然比成员推断攻击。这类攻击把成员推断转化为一个假设检验问题：在目标模型对某条记录给出的预测置信度下，比较“该记录不在训练集中”和“该记录在训练集中”两种假设哪一种更可能成立。攻击者可以使用参考模型来估计这两种情况下的置信度分布。参考模型最好与目标模型架构相似，并使用与目标训练数据相似的数据训练，但并不一定必须完全相同。

需要说明的是，某些更强的攻击可能需要访问模型参数、训练过程中的参数更新，甚至修改模型架构。但这些假设对于谨慎部署的实际医疗AI系统并不总是现实。而本文研究的攻击只需要对目标模型查询一次——获得目标记录的预测结果——因此更接近现实中的低门槛攻击。尤其值得注意的是，这类攻击发生在模型训练完成之后，所以联邦学习或群体学习等保护训练数据治理过程的方法，并不能直接防止这种已部署模型上的成员推断攻击。

从整体风险转向患者级风险

传统成员推断攻击评估通常基于整体ROC分析。由于训练大量AI模型成本较高，以往研究往往只训练一个目标模型，然后把数据集中所有记录的成员推断结果汇总起来计算整体攻击成功率。这种做法虽然实用，却无法告诉你攻击对某一条记录或某一位患者是否特别有效。

为了解决这个问题，研究团队提出了一种估计记录级和患者级成员推断脆弱性的方法。他们训练了大量目标模型，每个模型使用随机患者子集作为训练数据。对于每条训练记录，分别收集“包含该记录的模型”和“不包含该记录的模型”在该记录上的预测置信度，从而构建两类经验分布。基于这些分布，可以估计该记录对应的成员推断攻击成功率。较高的攻击AUC表示较高的隐私风险——攻击者可以在较低假阳性率下以较高敏感度判断该记录是否属于训练集。

因为一个患者通常贡献多条记录，只要攻击者成功识别其中一条记录的成员身份，就可能暴露该患者的训练集成员身份。因此，研究团队将患者所有记录的风险取最大值，作为患者级隐私风险。这个处理方式比简单平均更符合隐私泄露场景——攻击者通常只需要一次成功推断就能获知患者是否参与了训练数据。

图1：成员推断攻击与隐私风险评估策略。

攻击开源医疗AI模型

研究团队首先展示了现实攻击的可行性。他们对TorchXrayVision库中的两个开源胸部X线模型进行攻击，目标模型分别对应CheXpert和MIMIC-CXR。他们采用了一种更低成本的成员推断攻击方法，这种方法只需要一个或两个参考模型，而不需要训练大量参考模型。

在模拟现实攻击时，他们假设攻击者无法访问目标模型的训练集，也受到计算资源限制。因此，他们只使用一个已经预训练好的PadChest模型作为参考模型，对CheXpert和MIMIC-CXR模型发起攻击。在这种离线攻击设置中，攻击者无需额外训练参考模型，只需获得参考模型和目标模型对相关数据的预测置信度即可。这样的攻击可以在普通硬件上完成，甚至不需要GPU。

他们将CheXpert和MIMIC-CXR中的记录组合起来进行评估，并分别把其中一个数据集视为目标模型的成员数据，另一个视为非成员数据。结果显示，攻击在整体层面已经达到明显高于随机猜测的成功率。当然，由于成员和非成员数据之间存在分布差异，这一设置不能与标准随机采样评估完全直接比较；但在真实攻击场景中，分布差异恰恰很可能存在，因此这一结果具有重要现实意义。

某些患者面临近乎完美的攻击成功率

在证明现实攻击可行之后，研究团队进一步考察成员推断攻击对单个患者隐私的影响。他们在多个医疗数据集上训练了大量目标模型，并采用了现代模型训练策略，例如数据增强、权重衰减和学习率调度，同时采取措施减少过拟合。尽管每个目标模型只使用约一半可用患者数据训练，这些模型仍然获得了接近已发表基线的诊断性能。

在所有数据集和模型中，他们都发现了一小部分高度脆弱的患者。患者级攻击成功率的分布显示，虽然大多数患者的风险并不高，但仍有少数患者的攻击AUC接近1，意味着攻击者几乎可以可靠判断这些患者的数据是否用于训练。与此同时，传统整体ROC曲线和整体攻击AUC往往接近随机猜测，错误地暗示模型整体隐私风险较低。这个结果清楚地说明：平均意义上的攻击成功率并不能准确反映个体患者的隐私风险。

对于两个非影像数据集——急诊电子健康记录和心电图数据——他们还模拟了攻击者只能访问部分目标记录的情况。即便攻击者只知道患者的基本临床信息，例如年龄、性别、主诉和生命体征，或者只能访问十二导联心电图中的单个导联信号，仍然有一部分患者保持较高攻击风险。这意味着成员推断攻击并不总是需要完整医疗记录，部分信息也可能足以暴露某些患者的训练集成员身份。

接下来他们测试了差分隐私保护是否能够降低这些风险。结果显示，随着隐私保护增强，患者级成员推断攻击风险下降。总体上，差分隐私可以有效缓解攻击，但在部分强隐私保护场景中，仍会出现记录级保护不足以覆盖患者级风险的情况。这是因为患者通常贡献多条记录，记录级保护并不等同于患者级保护。因此，若要充分保护患者隐私，未来应考虑患者级差分隐私核算，而不仅仅是记录级核算。

更大的模型带来更高风险

近年来，AI的许多进步来自模型和数据规模的扩大。研究团队因此进一步考察模型容量对成员推断攻击成功率的影响。在皮肤病图像数据集和胸部X线数据集上，他们训练了不同容量的模型，包括宽残差网络和视觉Transformer，并在可行情况下使用不同图像分辨率进行训练。

结果显示，模型容量越大，成员推断攻击在整体层面和患者层面的成功率通常越高。尤其是在患者级风险上，更大模型会使高度脆弱患者的比例显著增加，有时增加一个数量级。对于皮肤病图像数据集，模型容量提升带来了明显诊断性能增益，但同时也显著增加了患者级近乎完美攻击成功的风险。例如，当模型从较小的宽残差网络扩展到更大的视觉Transformer后，攻击AUC高于0.95的患者比例显著上升。

在更大的CheXpert数据集中也观察到类似趋势，尽管整体攻击风险低于皮肤病数据集。需要注意的是，在CheXpert中，视觉Transformer的诊断表现并未超过宽残差网络，这可能与自然图像预训练对医学灰度影像的迁移价值有限有关。总体上，这些结果表明模型规模化不仅影响性能，也会改变患者隐私风险分布。更强模型可能更好地学习训练数据中的长尾样本，而这些长尾样本正是更容易被攻击识别的对象。

图2：成员推断攻击对个体患者造成显著隐私风险。

攻击成功率在患者亚组之间存在差异

受到医疗AI诊断性能在不同患者亚组之间可能存在差异这一现象的启发，研究团队进一步分析隐私风险是否也存在群体差异。他们重点关注最脆弱的记录——即处于成员推断攻击AUC最高百分位的记录——并比较不同患者亚组在这些高风险记录中的出现频率与其在整体数据集中的比例是否一致。

结果发现，当按疾病状态、自我报告种族、性别、影像采集协议或健康保险类型划分患者时，极端成员推断攻击风险在不同亚组之间并不均匀。多数比较中，高风险记录的亚组构成与整体数据集构成存在显著差异。例如，在急诊电子健康记录数据集中，黑人患者、使用Medicaid保险的患者以及被诊断为癌症的患者，在最脆弱记录中间出现的频率高于其在整体数据集中的比例。

在乳腺X线摄影数据集中，模型训练任务是预测乳腺密度，而不是直接预测肿瘤发现。然而，具有良性肿瘤发现或疑似恶性肿瘤发现的记录，在最脆弱记录中仍然被过度代表。同样，几乎全脂肪型乳腺或极高密度乳腺这类相对少见的影像类型，也更频繁地出现在极端风险记录中。这说明即便模型并未直接使用某些敏感疾病标签作为训练目标，数据中的罕见或非典型特征仍可能增加成员推断攻击风险。

为了理解这种差异背后的原因，研究团队进一步分析了各亚组规模与攻击风险之间的关系。结果显示，较大的正向残差主要出现在数据集中占比较小的群体中——也就是说，代表性不足的群体往往在最脆弱记录中被过度代表。他们观察到，群体规模与风险残差之间存在弱到中等程度的负相关。这表明，训练数据中的群体规模差异至少部分解释了患者亚组之间的成员推断攻击风险差异。

图3：患者亚组之间的极端成员推断攻击风险存在显著差异。

讨论

这项研究是较早的医疗AI患者级隐私审计，在三个方面推进了既有工作。第一，它将分析重点从记录整体转向患者层面——这对于真实临床数据集尤其重要，因为一个患者常常贡献多条相似记录。第二，它表明标准整体攻击成功率会低估真实隐私风险，即使在很低假阳性率下评估整体攻击表现，也无法揭示某些个体患者面临的近乎完美攻击风险。第三，它证明了以往在低维基准数据集中观察到的成员推断攻击脆弱性，同样存在于大型真实临床数据集中，而且在医疗场景下可能更关键。

研究团队认为，AI隐私审计的报告标准需要改变。仅报告整体攻击AUC或整体ROC曲线是不够的，因为这会把高风险个体掩盖在平均值之下。未来的隐私审计应当报告个体数据贡献者层面的攻击成功率；如果缺乏患者级或个体级标识符，至少也应报告记录级风险。

他们还发现，随着模型变大，易受成员推断攻击的患者数量大幅增加。这一现象与理论研究相符：对于长尾数据分布，模型要在测试时获得更好性能，往往需要更好地拟合训练集中不典型或罕见的记录，而这些记录也更容易被攻击识别。因此，患者隐私与模型性能之间可能存在不可避免的权衡，尤其是在罕见疾病或少数群体样本不足的场景中。采用更大模型追求性能提升时，应同时认真评估其带来的个体隐私风险。

更进一步，极端隐私风险在患者亚组之间分布不均。一些群体即便人类专家难以通过图像直接区分——例如胸部X线中的自我报告种族亚组——也可能表现出不同的攻击风险。这意味着实际部署中可能存在未被观察到的隐私风险差异。研究发现，代表性不足的患者群体往往在最易受到成员推断攻击的记录中被过度代表，而多数群体则常常相反。这个发现与既有健康不平等问题相互呼应：边缘化或少数群体不仅可能面临较差健康结局，也可能在医疗AI发展中承担更高隐私风险。如果这些群体同时获得较差模型性能和较高隐私风险，可能进一步削弱他们对医疗AI的信任，并降低他们贡献训练数据的意愿，从而形成恶性循环。

虽然本文重点研究的是诊断型判别模型，但研究团队认为结果也可能影响生成式医疗AI的隐私风险评估。成员推断攻击可以促进训练数据提取攻击，而训练数据提取攻击已经在大型语言模型、扩散图像生成模型和生产级语言模型中被证明可行。本文方法原则上也可以用于生成模型的记录级或患者级成员推断风险估计，但这需要大量计算资源，因此未来需要探索更可扩展的近似方法。

为了释放医疗AI的全部潜力，模型需要在大规模医疗数据上训练，而这依赖于患者对数据使用过程的信任。研究团队认为，差分隐私等具有数学可验证性的风险缓解方法是最有前景的解决方案。差分隐私通过在训练或微调过程中向参数更新加入噪声，限制任意个体数据对最终模型的影响，从而保护每个数据贡献者的隐私。实验表明，更强差分隐私保护能够有效降低所有患者的成员推断攻击成功率。不过，完全缓解所有患者的风险可能需要比以往认为更强的保护，并且应优先采用患者级差分隐私，而不是只对单条记录提供保护。

总之，这项研究提供了明确证据：成员推断攻击可能非常有效地破坏个体数据贡献患者的隐私。医疗AI模型及其部署场景应当被评估——一旦攻击者成功推断训练集成员身份，可能获得哪些敏感信息。为了防止隐私伤害，对存在脆弱性的模型应采用可验证的风险缓解策略，并结合严格的访问控制。