游乐游手机版
首页/AI教程/文章详情

单细胞基础模型解读与基因重要性评分方法

时间:2026-06-01 20:20
SIGnature框架借助可解释AI的attribution方法,解读单细胞基础模型,量化基因功能重要性。相比表达量,它更精准识别转录因子等关键调控基因,降低技术噪声与批次效应,支持跨研究比较。应用中发现严重COVID-19、川崎病等不同疾病共享的免疫状态。

DRUGONE

在单细胞转录组研究中,一个长期存在的困惑是:基因表达量高,就一定意味着它功能重要吗?答案是否定的。许多关键转录因子表达量其实很低,却掌控着细胞的命运;而像核糖体或线粒体这类基因,虽然表达量极高,但往往与细胞身份的界定关系不大。这促使研究人员开发了一套名为SIGnature(Scoring the Importance of Genes)的新框架。其核心思路是:通过解读单细胞基础模型(single-cell foundation model)内部的attribution信号,来量化一个基因在特定细胞中的“功能重要性”。

SIGnature借助可解释人工智能(XAI)中的attribution方法,将每个基因对单细胞基础模型潜在表征(latent embedding)的贡献度进行量化,最终得到一个更具鲁棒性、且能在不同数据集间相互比较的基因重要性分数。研究团队进一步开发了相应的SIGnature软件包,使其能够在大规模单细胞图谱中实现快速的signature查询。

作为应用示范,研究人员利用该框架深入分析了严重COVID-19与脓毒症中发现的MS1单核细胞程序。通过对超过400项单细胞研究的搜索,他们发现这一程序与川崎病(KD)、噬血细胞性淋巴组织细胞增多症(HLH)以及发热伴血小板减少综合征(SFTS)等多种高炎症疾病存在关联。进一步的实验验证表明,KD患者的血清确实能够诱导MS1表型的形成。这项研究结果暗示,SIGnature不仅能提升单细胞signature评分的鲁棒性,更有望揭示不同疾病背后共享的免疫机制。

\

长期以来,研究者习惯于通过基因的表达量来判断其重要性。但绝对表达量这条“老路”常常会把人带偏。转录因子就是个典型例子,它们往往表达量很低,却是细胞命运的决定者;反过来,像MALAT1、核糖体蛋白和线粒体基因这类,则经常因为技术原因被检测出高表达,却不一定有多大的功能权重。

因此,目前单细胞分析常用的方法是依赖差异表达分析、GSEA、GSVA、Seurat或Scanpy等手段,通过相对表达的变化来推断功能。但这些方法普遍存在一个核心短板:不同实验间的批次效应、测序深度差异和细胞组成差异非常强烈,导致跨研究比较变得异常棘手。

与此同时,单细胞基础模型正在快速发展。这类模型通过海量数据预训练,能够学习到有生物学意义的潜在表征。但问题也随之而来——这些模型就像一个“黑箱”,研究者很难搞懂模型究竟认为哪些基因最重要。

那么,是否可以借助可解释AI中的attribution方法,把基础模型的黑箱表征,拆解成“基因功能重要性”的清晰答案?如果模型真的学到了生物规律,那么attribution得分高的基因,自然就应该对应那些决定细胞身份与功能的关键调控基因。

方法

为此,研究团队构建了SIGnature框架,它基于基础模型的attribution来计算单细胞层面的基因重要性。具体操作上,他们首先选定了多个主流单细胞基础模型,包括scFoundation、scGPT、SCimilarity、scTab和scVI等。模型需要满足两个基本条件:输入固定的基因集合,并能够输出具有生物学意义的细胞表征向量(embedding)。

接着,他们引入了可解释AI中几种常见的attribution方法,包括Integrated Gradients(IG)、Input × Gradient(IxG)和DeepLIFT(DL),用来计算每个基因对潜在表征的贡献值。为了让计算适配多维的表征向量,他们在模型末端添加了一个summation layer,使得embedding可以被映射成attribution向量。

研究团队在多个单细胞数据集上进行了系统性的基准测试,从attribution的运行速度、抗技术噪声的能力、标志基因的富集效果,以及跨研究的鲁棒性等维度进行了全面评估。最终,他们选定了“SCimilarity + Integrated Gradients”作为后续分析的主力组合。

\

图1:SIGnature框架概念图与attribution在单细胞基础模型中的作用机制。

结果

Attribution 能够量化单细胞中的“基因重要性”

首先,研究团队验证了attribution是否真的能反映生物学功能。结果相当清晰:在B细胞中,attribution得分最高的基因包括BANK1、CD79A和MS4A1,这些都是经典的B细胞标志基因。而相比之下,表达量最高的基因则主要是MALAT1、MT-CO1和RPS27这类技术相关的高表达基因。

这一趋势在多种肺细胞类型中同样成立。研究显示,相比于基于表达量的排序,attribution排序能够显著提升标志基因和转录因子的排名。

更进一步,对CD4+ T细胞的分析揭示了attribution的“精准度”:

  • GATA3在Th2细胞中attribution更高;
  • RORC在Th17细胞中attribution更高;
  • FOXP3在Treg细胞中attribution更高。

结论很明确:attribution更像是在衡量“功能调控重要性”,而不仅仅是表达量的高低。

\

图2:Attribution与传统表达量在marker gene和转录因子识别中的对比。

Attribution 显著降低技术噪声影响

接下来,研究团队考察了attribution对技术伪影(artifact)的抗性。结果显示,与表达量相比,标志基因的attribution与UMI计数、检测到的基因数等测序深度指标的相关性明显更低。

举一个具体的例子:在非经典单核细胞(nonclassical monocyte)中,

  • 表达量(expression)与测序深度的相关性高达ρ=0.71;
  • 而attribution的相关性仅为ρ=-0.12。

为了进一步验证,他们模拟了数据缺失(dropout)的情况,随机移除了50%的counts。结果显示,attribution排名前列的基因依然保持了93%的重叠率,说明它对数据缺失具有很强的鲁棒性。

此外,针对不同基础模型的基准测试也表明,attribution在所有模型中都能有效降低核糖体基因的重要性,同时增强有丝分裂相关基因和细胞类型标志基因的信号。

\

图3:不同foundation model attribution的benchmark与抗技术噪声能力分析。

Attribution 支持跨研究基因程序发现

研究团队随后测试了attribution是否能够支持跨数据集的基因程序发现。他们将多个T细胞数据集拼接后,对attribution矩阵进行了非负矩阵分解(NMF)。

结果令人振奋:他们成功恢复了多个具有明确生物学意义的基因程序,包括:

  • CD8+ T细胞因子;
  • 细胞因子反应因子;
  • Treg相关因子。

其中,Treg因子富集了FOXP3与IL2RA等经典的调控基因,并且能够推广到来自16种不同组织的Treg细胞。与基于表达量的NMF相比,基于attribution的NMF更稳定、受研究特异性效应的影响更小,也更容易恢复有生物学意义的因子。

值得关注的是,基于attribution的方法甚至能达到接近有监督的scETM模型的效果,而且不需要重新训练。

\

图4:基于attribution的跨研究NMF基因程序分析。

Attribution 显著提升 signature 评分能力

接下来,研究团队将attribution应用于基因signature的评分。他们发现,对一个signature中所有基因的attribution求平均值,可以有效地衡量该signature在单细胞中的激活程度。

在PBMC数据集中的测试显示:

  • B细胞signature在B细胞中得分最高;
  • NK细胞signature在NK细胞中最高;
  • CD8+ T细胞signature在CD8+ T细胞中最高。

进一步与Scanpy、UCell、JASMINE和ANS等方法比较,基于attribution的评分方法(mean attribution)在32项测试中赢得了23项,在有监督和无监督任务中均表现最佳。

更关键的是,基于attribution的评分在跨研究分析中表现出极强的鲁棒性。例如,传统方法Scanpy可能会错误地给某些CD4+ T细胞打出比真实CD8+ T细胞还高的CD8 signature得分,而attribution方法则不会出现这个问题。研究团队在120万个细胞、15个独立实验中对这一结论进行了验证。

\

图5:Attribution-based signature scoring与传统方法的系统比较。

SIGnature 在2200万细胞中发现共享炎症状态

最后,研究团队展示了SIGnature在大规模应用场景下的真正实力。由于attribution可以预先计算,他们得以在2200万个细胞中快速搜索特定的基因signature。

他们选择了严重COVID-19与脓毒症中的MS1单核细胞signature,并在412个疾病研究中进行了搜索。结果不仅重新发现了此前已知的脓毒性休克和严重COVID-19,还意外地发现它与川崎病、发热伴血小板减少综合征(SFTS)以及噬血细胞性淋巴组织细胞增多症(HLH)也存在关联。

在川崎病的数据中,MS1样细胞在接受IVIG治疗后显著减少。进一步的实验验证表明,川崎病患者的血清能够诱导紧急髓系生成(emergency myelopoiesis),并增加HLA-DRlow的MS1样单核细胞比例。这一结果说明,SIGnature不仅能完成signature评分,还能发现此前未知的疾病关联机制。

讨论

总的来说,SIGnature框架首次将可解释AI的attribution系统性地引入单细胞基础模型的解释中,构建了一套统一且可扩展的“基因重要性评分体系”。相比于传统的基于表达量的方法,attribution更关注那些真正驱动模型潜在表征的关键基因,因此能够增强转录因子和标志基因的信号,同时有效降低测序深度与技术伪影的干扰。研究结果表明,基于attribution的表征不仅能改善跨研究的基因程序发现,还能在超大规模图谱中实现分钟级的signature查询,从而揭示出不同疾病之间共享的免疫状态。可以预见,这类“可解释的基础模型”未来将成为单细胞分析领域的重要基础设施,让AI不再只是一个预测工具,而是真正成为帮助研究人员理解细胞调控机制的得力助手。

参考资料

Gold, M.P., Reyes, M., Diamant, N. et al. Scoring gene importance by interpreting single-cell foundation models. Nat Biotechnol (2026).
https://doi.org/10.1038/s41587-026-03112-5

来源:https://cloud.tencent.com.cn/developer/article/2680141
上一篇公文写作标准效率提升的五个关键技巧 下一篇掌握公文写作基础知识与结构化思维五大原则
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
企业组织级AI赋能具体实施方法
AI教程 · 2026-06-30

企业组织级AI赋能具体实施方法

前段时间收到一位读者的留言,希望聊聊企业级、组织级的AI赋能究竟该怎么落地。巧的是,前几天刚看到一份咨询调研机构的数据:对近一两年所有企业级AI赋能项目的统计显示,超过90%的甲方企业认为,AI赋能在核心业务价值链上没有发挥任何实质性作用。除了AI辅助办公、企业智能知识库这类边缘应用起到了一些辅助效

Scrapy与Redis分布式架构的日本电商多平台数据聚合系统
AI教程 · 2026-06-30

Scrapy与Redis分布式架构的日本电商多平台数据聚合系统

从事日本电商数据聚合工作时,最大的难点在于要同时应对雅虎拍卖、煤炉(Mercari)、乐天和亚马逊日本站等截然不同的平台。以往使用单机爬虫,经常出现运行中崩溃的情况——单点故障、带宽利用率不足、数据存储混乱,这三大痛点令人困扰。 本文分享一套基于Scrapy + Redis的分布式爬虫方案,专门解决

详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置
AI教程 · 2026-06-30

详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置

​ PuTTY(简称PT)是一款轻量级开源SSH Telnet客户端,凭借简洁高效的特性,多年来始终是系统管理员与开发者进行远程连接的首选利器。本教程将详细介绍PuTTY 0 81版本的完整安装过程,并指导您自定义安装路径,以便更灵活地管理SSH远程连接工具。 安装准备 首先需要说明的是,整个安装流

在线教育系统必备功能:直播课堂与题库考试架构
AI教程 · 2026-06-30

在线教育系统必备功能:直播课堂与题库考试架构

很多人一想到做在线教育系统,第一反应往往是先把直播间和课程播放器搭起来,觉得“能看课”就万事大吉了。真到落地那天才发现,系统能不能顺滑跑起来,关键全藏在那些细节里——课程怎么组织、学习进度怎么记、考试怎么处理、后台怎么管得住。前端看起来就几个页面,后端其实是一整条业务链路。不管你是要做在线教育APP

ZStack源码级AI诊断套件让故障排查秒出答案
AI教程 · 2026-06-30

ZStack源码级AI诊断套件让故障排查秒出答案

一次故障排查,到底要花多少时间? 运维人员处理私有云、虚拟化平台的问题,流程大致都是这样:先翻日志看现象,再去文档里找对应机制,然后搜社区有没有类似案例,最后综合判断给出答复。简单问题半小时,复杂问题可能要跨天——而这些时间里,大部分精力耗在了“找信息”而不是“做决策”上。 类似的问题,也许每天都在