单细胞基础模型解读与基因重要性评分方法

时间：2026-06-01 20:20

SIGnature框架借助可解释AI的attribution方法，解读单细胞基础模型，量化基因功能重要性。相比表达量，它更精准识别转录因子等关键调控基因，降低技术噪声与批次效应，支持跨研究比较。应用中发现严重COVID-19、川崎病等不同疾病共享的免疫状态。

DRUGONE

在单细胞转录组研究中，一个长期存在的困惑是：基因表达量高，就一定意味着它功能重要吗？答案是否定的。许多关键转录因子表达量其实很低，却掌控着细胞的命运；而像核糖体或线粒体这类基因，虽然表达量极高，但往往与细胞身份的界定关系不大。这促使研究人员开发了一套名为SIGnature（Scoring the Importance of Genes）的新框架。其核心思路是：通过解读单细胞基础模型（single-cell foundation model）内部的attribution信号，来量化一个基因在特定细胞中的“功能重要性”。

SIGnature借助可解释人工智能（XAI）中的attribution方法，将每个基因对单细胞基础模型潜在表征（latent embedding）的贡献度进行量化，最终得到一个更具鲁棒性、且能在不同数据集间相互比较的基因重要性分数。研究团队进一步开发了相应的SIGnature软件包，使其能够在大规模单细胞图谱中实现快速的signature查询。

作为应用示范，研究人员利用该框架深入分析了严重COVID-19与脓毒症中发现的MS1单核细胞程序。通过对超过400项单细胞研究的搜索，他们发现这一程序与川崎病（KD）、噬血细胞性淋巴组织细胞增多症（HLH）以及发热伴血小板减少综合征（SFTS）等多种高炎症疾病存在关联。进一步的实验验证表明，KD患者的血清确实能够诱导MS1表型的形成。这项研究结果暗示，SIGnature不仅能提升单细胞signature评分的鲁棒性，更有望揭示不同疾病背后共享的免疫机制。

长期以来，研究者习惯于通过基因的表达量来判断其重要性。但绝对表达量这条“老路”常常会把人带偏。转录因子就是个典型例子，它们往往表达量很低，却是细胞命运的决定者；反过来，像MALAT1、核糖体蛋白和线粒体基因这类，则经常因为技术原因被检测出高表达，却不一定有多大的功能权重。

因此，目前单细胞分析常用的方法是依赖差异表达分析、GSEA、GSVA、Seurat或Scanpy等手段，通过相对表达的变化来推断功能。但这些方法普遍存在一个核心短板：不同实验间的批次效应、测序深度差异和细胞组成差异非常强烈，导致跨研究比较变得异常棘手。

与此同时，单细胞基础模型正在快速发展。这类模型通过海量数据预训练，能够学习到有生物学意义的潜在表征。但问题也随之而来——这些模型就像一个“黑箱”，研究者很难搞懂模型究竟认为哪些基因最重要。

那么，是否可以借助可解释AI中的attribution方法，把基础模型的黑箱表征，拆解成“基因功能重要性”的清晰答案？如果模型真的学到了生物规律，那么attribution得分高的基因，自然就应该对应那些决定细胞身份与功能的关键调控基因。

方法

为此，研究团队构建了SIGnature框架，它基于基础模型的attribution来计算单细胞层面的基因重要性。具体操作上，他们首先选定了多个主流单细胞基础模型，包括scFoundation、scGPT、SCimilarity、scTab和scVI等。模型需要满足两个基本条件：输入固定的基因集合，并能够输出具有生物学意义的细胞表征向量（embedding）。

接着，他们引入了可解释AI中几种常见的attribution方法，包括Integrated Gradients（IG）、Input × Gradient（IxG）和DeepLIFT（DL），用来计算每个基因对潜在表征的贡献值。为了让计算适配多维的表征向量，他们在模型末端添加了一个summation layer，使得embedding可以被映射成attribution向量。

研究团队在多个单细胞数据集上进行了系统性的基准测试，从attribution的运行速度、抗技术噪声的能力、标志基因的富集效果，以及跨研究的鲁棒性等维度进行了全面评估。最终，他们选定了“SCimilarity + Integrated Gradients”作为后续分析的主力组合。

图1：SIGnature框架概念图与attribution在单细胞基础模型中的作用机制。

结果

Attribution 能够量化单细胞中的“基因重要性”

首先，研究团队验证了attribution是否真的能反映生物学功能。结果相当清晰：在B细胞中，attribution得分最高的基因包括BANK1、CD79A和MS4A1，这些都是经典的B细胞标志基因。而相比之下，表达量最高的基因则主要是MALAT1、MT-CO1和RPS27这类技术相关的高表达基因。

这一趋势在多种肺细胞类型中同样成立。研究显示，相比于基于表达量的排序，attribution排序能够显著提升标志基因和转录因子的排名。

更进一步，对CD4+ T细胞的分析揭示了attribution的“精准度”：

GATA3在Th2细胞中attribution更高；
RORC在Th17细胞中attribution更高；
FOXP3在Treg细胞中attribution更高。

结论很明确：attribution更像是在衡量“功能调控重要性”，而不仅仅是表达量的高低。

图2：Attribution与传统表达量在marker gene和转录因子识别中的对比。

Attribution 显著降低技术噪声影响

接下来，研究团队考察了attribution对技术伪影（artifact）的抗性。结果显示，与表达量相比，标志基因的attribution与UMI计数、检测到的基因数等测序深度指标的相关性明显更低。

举一个具体的例子：在非经典单核细胞（nonclassical monocyte）中，

表达量（expression）与测序深度的相关性高达ρ=0.71；
而attribution的相关性仅为ρ=-0.12。

为了进一步验证，他们模拟了数据缺失（dropout）的情况，随机移除了50%的counts。结果显示，attribution排名前列的基因依然保持了93%的重叠率，说明它对数据缺失具有很强的鲁棒性。

此外，针对不同基础模型的基准测试也表明，attribution在所有模型中都能有效降低核糖体基因的重要性，同时增强有丝分裂相关基因和细胞类型标志基因的信号。

图3：不同foundation model attribution的benchmark与抗技术噪声能力分析。

Attribution 支持跨研究基因程序发现

研究团队随后测试了attribution是否能够支持跨数据集的基因程序发现。他们将多个T细胞数据集拼接后，对attribution矩阵进行了非负矩阵分解（NMF）。

结果令人振奋：他们成功恢复了多个具有明确生物学意义的基因程序，包括：

CD8+ T细胞因子；
细胞因子反应因子；
Treg相关因子。

其中，Treg因子富集了FOXP3与IL2RA等经典的调控基因，并且能够推广到来自16种不同组织的Treg细胞。与基于表达量的NMF相比，基于attribution的NMF更稳定、受研究特异性效应的影响更小，也更容易恢复有生物学意义的因子。

值得关注的是，基于attribution的方法甚至能达到接近有监督的scETM模型的效果，而且不需要重新训练。

图4：基于attribution的跨研究NMF基因程序分析。

Attribution 显著提升 signature 评分能力

接下来，研究团队将attribution应用于基因signature的评分。他们发现，对一个signature中所有基因的attribution求平均值，可以有效地衡量该signature在单细胞中的激活程度。

在PBMC数据集中的测试显示：

B细胞signature在B细胞中得分最高；
NK细胞signature在NK细胞中最高；
CD8+ T细胞signature在CD8+ T细胞中最高。

进一步与Scanpy、UCell、JASMINE和ANS等方法比较，基于attribution的评分方法（mean attribution）在32项测试中赢得了23项，在有监督和无监督任务中均表现最佳。

更关键的是，基于attribution的评分在跨研究分析中表现出极强的鲁棒性。例如，传统方法Scanpy可能会错误地给某些CD4+ T细胞打出比真实CD8+ T细胞还高的CD8 signature得分，而attribution方法则不会出现这个问题。研究团队在120万个细胞、15个独立实验中对这一结论进行了验证。

图5：Attribution-based signature scoring与传统方法的系统比较。

SIGnature 在2200万细胞中发现共享炎症状态

最后，研究团队展示了SIGnature在大规模应用场景下的真正实力。由于attribution可以预先计算，他们得以在2200万个细胞中快速搜索特定的基因signature。

他们选择了严重COVID-19与脓毒症中的MS1单核细胞signature，并在412个疾病研究中进行了搜索。结果不仅重新发现了此前已知的脓毒性休克和严重COVID-19，还意外地发现它与川崎病、发热伴血小板减少综合征（SFTS）以及噬血细胞性淋巴组织细胞增多症（HLH）也存在关联。

在川崎病的数据中，MS1样细胞在接受IVIG治疗后显著减少。进一步的实验验证表明，川崎病患者的血清能够诱导紧急髓系生成（emergency myelopoiesis），并增加HLA-DRlow的MS1样单核细胞比例。这一结果说明，SIGnature不仅能完成signature评分，还能发现此前未知的疾病关联机制。

讨论

总的来说，SIGnature框架首次将可解释AI的attribution系统性地引入单细胞基础模型的解释中，构建了一套统一且可扩展的“基因重要性评分体系”。相比于传统的基于表达量的方法，attribution更关注那些真正驱动模型潜在表征的关键基因，因此能够增强转录因子和标志基因的信号，同时有效降低测序深度与技术伪影的干扰。研究结果表明，基于attribution的表征不仅能改善跨研究的基因程序发现，还能在超大规模图谱中实现分钟级的signature查询，从而揭示出不同疾病之间共享的免疫状态。可以预见，这类“可解释的基础模型”未来将成为单细胞分析领域的重要基础设施，让AI不再只是一个预测工具，而是真正成为帮助研究人员理解细胞调控机制的得力助手。

参考资料

Gold, M.P., Reyes, M., Diamant, N. et al. Scoring gene importance by interpreting single-cell foundation models. Nat Biotechnol (2026).
https://doi.org/10.1038/s41587-026-03112-5

来源：https://cloud.tencent.com.cn/developer/article/2680141

基础模型