空间转录组学(ST)这项前沿技术,能够在保留细胞空间位置信息的同时精确测量基因表达——这无疑是极具颠覆性的科技突破。该技术对于解析组织微环境与疾病生态系统的核心机制至关重要。然而,现实挑战依然严峻:测序成本高昂且通量偏低,大规模临床应用受到极大限制。相比之下,H&E 染色的全切片图像(WSI)在临床实践中更易获取,已近乎成为常规检查项目。因此,“以图测谱”这一创新思路应运而生:直接从病理图像中预测空间基因表达,旨在打通低成本影像数据与高维分子信息之间的壁垒。这一研究方向,正成为连接临床观察与分子机制的关键桥梁。
不过,随之而来的技术挑战也不容忽视。现有方法大多将问题简化为“对每个基因独立执行逐点回归”,评估指标也局限于 PCC、MSE 这类逐点精度。这种做法忽略了两项至关重要的生物学结构:反映调控机制的“基因-基因”关系,以及反映组织构筑的“基因-空间”分布关系。其结果是,即便单基因数值表现尚可,生成的表达图谱往往仅是“形似而神不似”——看上去接近,实则不可靠。必须警惕的是,这种“只见树木不见森林”的局限正在阻碍我们从数据中挖掘真正的生物学规律。
针对上述挑战,上海科学智能研究院联合上海交通大学、复旦大学,提出了一种结构感知的潜扩散框架——FLAG(Foundation model representation with Latent diffusion Alignment via Graph)。该框架将任务从“确定性回归”重新定义为“结构化分布建模”,并首次系统性地揭示和刻画了高维场景下的“基因维度诅咒”(Gene Dimension Curse)。实验结果表明,FLAG 在保持 PCC/MSE 高度竞争力的同时,在结构保真度指标上实现了显著领先——这无疑是“鱼与熊掌兼得”的突破性成果。
这项研究成果已被 ICML 2026 接收。上智院生命科学方向研究员斯奇、上海交通大学生物医学工程学院博士生王鹏磊为共同第一作者;上智院生命科学方向 AI 科学家郭昕,以及上智院 AI 科学家、生命科学方向负责人、复旦大学研究员程远,为共同通讯作者;上智院生命科学方向研究员吴俣帅、焦一峰、刘旭阳,上智院首席科学家、复旦大学特聘教授漆远,为共同作者。本研究由星河启智科学智能开放平台提供技术支持。
现有方法的两大瓶颈
第一个瓶颈可归结为四个字:“只见数值,不见结构”。判别式方法将每个基因视为独立的回归目标,天然会“抹平”从形态到表达中本应存在的随机性。最终导致过度平滑,既丢失了基因间的协同调控网络,也破坏了基因在空间上的真实分布纹理。换言之,我们丢失了最关键的生物学信息。
第二个瓶颈,是图扩散面临的“基因维度诅咒”。那些试图联合去噪测量点间关系的“图扩散”方法,在小基因集上尚可应对,但一旦基因维度升高,优化稳定性便会急剧恶化,最终直接崩溃。研究团队从理论上给出了解释:高维条件下,经验相关性急剧集中,迫使模型去逼近曲率极高的得分场——这已超出神经网络的能力边界。他们将其刻画为优化下界 L (joint) − L (node) ≥ Ω(G)——这一数学公式,精准揭示了问题的核心。
FLAG 的三重创新设计
FLAG 的设计思路十分巧妙。它利用空间图编码器作为基因潜空间扩散模型的先验,并在训练过程中与基因基础模型对齐。这三个模块,分别承担了“空间画布”、“生成引擎”与“生物规则”的角色,相当于为算法装上了三台互补的发动机。

首先是任务重定义。由于组织形态到基因表达的映射本质上是一对多的关系,FLAG 采用扩散生成范式,显式逼近高维概率流形,而非单纯拟合条件期望。这样一来,便能保留那些被逐点目标忽略掉的内在相关性。
其次,破解维度诅咒。FLAG 不再在图上联合去噪节点与边,而是将可靠的拓扑结构作为固定先验。空间图编码器一次性聚合出对基因维度稳定的空间上下文,再以此上下文引导基因维度的扩散。这相当于将高方差的“联合生成”转化为稳定的“条件生成”——一举解决了训练崩溃这一长期难题。
最后,注入生物先验。在扩散主干中间层,引入对齐损失,将隐表示对齐到冻结的预训练基因基础模型(Geneformer、scGPT、CellPLM)。该先验仅在训练时使用,推理时无需调用,因此几乎不增加部署成本,性价比极高。
全面领先的实验结果
研究团队还专门提出了两项结构化的新指标:基因结构相关性(GSC),用于衡量基因调控网络拓扑的保留情况;空间结构相关性(SSC),通过 Moran's I 衡量空间自相关模式的保留程度。在 HEST-1k 基准的 HER2ST、KIDNEY、PRAD 三个数据集上,FLAG 在保持 PCC/MSE 高度竞争力的同时,结构指标全面领先。以 HER2ST 为例,其 SSC 达到同类生成式方法 STFlow 的两倍以上,GSC 也位居所有方法之首——这一优势极为显著。

在直面“基因维度诅咒”的专项实验中,FLAG 即便在 G=800 的高维设置下,也显著优于两类基线方法。这充分证明,它完全可以扩展到更大规模、更具生物学代表性的基因面板。更关键的是,得益于离线预计算与冻结编码器策略,FLAG 在单卡(NVIDIA H800)上训练仅需约 35 秒/轮,峰值显存约 4.5GB,开销与现有生成式模型相当——性能大幅提升,成本却几乎不变。
下游应用验证
结构保真度的最终价值,在于能否转化为可靠的生物学发现。FLAG 成功恢复了雌激素早期反应通路中清晰的块对角调控簇;在差异表达基因(DEG)发现和空间域识别上,也全面领先。在 HER2ST 数据集上,FLAG 取得了 ARI 0.8451、NMI 0.9140 的优异成绩,大幅优于所有对比方法;在提供专家分层标注的 DLPFC 数据集上,其聚类结果也最接近以真值表达建立的上界。可以说,从理论到实践,每一步都经得起检验。

消融实验进一步证实了三大模块的协同必要性:若以确定性回归替换扩散主干,结构保真度会严重塌缩;移除 GFM 对齐会同时损害精度与空间一致性;移除空间图编码器则破坏空间结构保真度。三个模块分别充当“结构画布”、“生物规则”与“生成引擎”,真正做到了缺一不可。
总结与展望
FLAG 巧妙融合了预训练基础模型的表征能力与扩散生成的分布建模能力:静态空间图编码器稳健刻画组织拓扑,从根本上规避了“基因维度诅咒”导致的训练崩溃;基因基础模型对齐注入深层调控先验,使生成的表达图谱既精确又具备生物学结构一致性。更值得期待的是,其模块化设计以及与具体基础模型解耦的特性,为未来集成更强大的病理与基因基础模型预留了充足空间。
这项研究为“病理图像→空间转录组”确立了兼顾精度与结构保真度的新范式,再次印证了 AI 驱动生命科学的发展方向:跨越从拟合数值到还原生物学结构的鸿沟。未来,研究团队计划探索扩散推理加速、将图主干扩展到三维组织依赖,并攻克跨组织零样本泛化——为可扩展、生物学一致的空间转录组生成与计算病理,持续注入新动力。
