统一多模态AI框架破解免疫识别突变效应预测难题

时间：2026-06-02 12:08

提出统一多模态框架UniAIR，整合序列与结构信息，跨抗体-抗原和TCR-pHLA等任务预测突变效应。在多个基准测试中取得最佳性能，并能在少量实验数据下完成抗原逃逸、抗体成熟及新抗原优化，为免疫治疗与疫苗设计提供通用AI工具。

适应性免疫系统依靠B细胞和T细胞精准识别抗原，为机体提供持久且高度特异性的保护。然而，一个核心问题始终悬而未决：突变到底如何改变这些免疫识别过程中的分子互作？这是免疫学与计算生物学共同面对的挑战。现有的基于深度学习的突变效应预测方法虽然能够借助大规模预训练模型从蛋白质序列中学习规律，但大多局限于特定任务或单一模态，一旦遇到复杂且高度异质的免疫识别场景，泛化能力就明显不足了。

最近，研究人员提出了一种统一的多模态框架——UniAIR（Unified Adaptive Immune Recognition），旨在让突变效应预测摆脱“单打独斗”的困境，实现跨适应性免疫识别场景的通用预测。UniAIR整合了一套标准化的数据处理流程、以界面为中心的序列—结构融合Transformer，以及用于多专家集成与预测结构适配的扩展模块。该框架能够同时处理抗体—抗原、TCR–pHLA等多种免疫识别任务，即使在实验结构缺失或不完整的情况下也能正常工作。

从实验结果来看，UniAIR在多个大规模基准测试中均取得了当前最佳性能，并且在抗体成熟、抗原逃逸预测、TCR–pHLA优化等任务中展现出优异的泛化能力。尤其令人印象深刻的是，在仅有少量实验反馈数据的条件下，UniAIR成功完成了多轮肽段优化，还能从不完整结构中识别出关键功能突变位点。这项研究为构建统一的免疫突变景观分析平台奠定了基础，也为免疫治疗与疫苗设计提供了全新的AI工具。

要理解UniAIR的价值，首先需要回顾适应性免疫的本质。当病原体首次入侵时，免疫系统会形成具有长期记忆能力的B细胞和T细胞克隆，这样下次再遇到同样的病原体就能快速响应。同时，免疫识别还具备一定的交叉反应性，能够识别结构相似的表位。这些过程高度依赖于蛋白质之间的精确“握手”——比如抗体与抗原、TCR与pMHC之间的结合。问题是，无论突变发生在抗原还是免疫受体上，都可能显著改变结合亲和力与特异性，进而导致免疫逃逸、抗体失效甚至自身免疫疾病。因此，准确预测突变对免疫识别的影响，对于理解亲和力成熟机制、设计疫苗以及开发免疫治疗都至关重要。

传统实验方法如SPR和ELISA虽然能够测量结合亲和力，但通量太低，无法覆盖复杂的突变组合空间。深度突变扫描和酵母展示技术提高了突变覆盖率，但实验成本高昂，对多位点组合突变的系统性探索依然如同大海捞针。幸运的是，随着大规模免疫学数据的不断积累，机器学习逐渐成为预测突变效应的有力工具。目前的方法大致分为两类：基于序列的和基于结构的。蛋白语言模型能从海量序列中学习进化规律，在蛋白功能预测等任务上表现突出；结构模型则擅长捕捉高分辨率的空间相互作用模式。然而，这两类方法都难以独立完整地描述免疫识别中那种复杂、多模态且高度异质的相互作用过程。更关键的是，现有模型大多仅针对特定任务设计——要么做抗原逃逸预测，要么做抗体成熟，要么做T细胞表位优化——跨任务的泛化能力相当有限。

正是在这种背景下，研究人员推出了UniAIR这一统一多模态框架，希望通过标准化数据处理和联合学习序列与结构信息，实现跨免疫识别场景的通用突变效应预测。

方法

UniAIR由三个核心部分组成：标准化界面构建模块、多模态序列—结构融合模型ESSM，以及适用于真实场景的扩展模块。首先，研究人员搭建了一套统一的数据处理流程，对来自不同来源的免疫复合物数据进行质量控制、结构补全和突变中心界面构建，将异构输入统一转换为标准化表示。

接着，他们设计了一种名为S-Former的结构——序列—结构协同注意力Transformer。该模型能够同时整合蛋白语言模型中的进化信息以及蛋白结构中的几何特征，通过结构引导的注意力机制不断更新序列与结构表示，从而学习免疫识别界面的潜在规律。研究人员将S-Former与ESM2结合，形成了ESSM模型，并利用大规模免疫复合物数据进行了预训练。

为了进一步提升预测性能，他们还提出了MoFPE模块，将多个预训练结构模型集成在一起，包括ESSM、GearBind、RDE-DDG和PPIformer。系统通过一个结构感知门控网络动态分配不同专家模型的权重，实现自适应预测。

此外，针对实验结构缺失这一现实难题，研究人员开发了UniAIR-LT模块。该模块在预测结构与实验结构之间引入了一个轻量级的潜空间适配器，能够降低结构预测误差带来的表示偏移，从而提升模型在真实应用中的鲁棒性。

图1：UniAIR整体框架，包括标准化界面构建、多模态融合模块、MoFPE专家集成与UniAIR-LT结构适配模块。

结果

UniAIR在突变效应预测中达到当前最佳性能

研究人员首先在SKEMPI v2数据集上对ESSM和UniAIR进行了评估。结果显示，ESSM已经明显优于传统蛋白语言模型，而UniAIR通过多专家融合进一步提升了性能，在PCC、SPC、RMSE和MAE等多个指标上均达到了当前最佳水平。

在HER2抗体数据集和TCR–pMHC独立测试集中，UniAIR同样表现稳定，展现出优秀的跨任务泛化能力。特别值得注意的是，一些原本仅在特定任务中表现良好的模型，更换数据集后性能波动较大，而UniAIR却能在多种免疫识别场景中保持一致的准确率。

图2：UniAIR在SKEMPI v2、HER2以及TCR–pMHC测试集上的性能评估结果与t-SNE可视化。

UniAIR揭示TCR–pHLA与抗体识别中的突变规律

随后，研究人员利用UniAIR对TCR–pHLA复合物进行了零样本突变扫描分析。结果发现，肽段第2、6和9位氨基酸对结合亲和力影响最大，这与已知的HLA锚定位点和TCR接触位点高度吻合。

在CDR3β区域分析中，他们将其划分为六个片段，发现中央区域对突变最为敏感，直接接触pHLA的残基比非接触区域更为关键。进一步分析氨基酸偏好显示，肽段更偏爱极性残基，而CDR3β区域则倾向于使用疏水残基来稳定界面结构。

研究人员还使用UniAIR对P36-5D2抗体进行了零样本亲和力成熟预测。模型在超过13万种四重突变组合中筛选出了高潜力突变体，绝大多数实验验证成功的高亲和力突变都被模型排在前20%。这表明UniAIR不仅能恢复已知规律，还能发现潜在更优的候选突变。

图3：UniAIR在TCR–pHLA和抗体成熟中的零样本突变扫描与突变偏好分析。

UniAIR利用少量数据预测抗原逃逸

研究人员进一步将UniAIR应用于拉沙病毒GPC蛋白的抗原逃逸预测中。他们针对多个不同结合模式的人源抗体进行了分析，并计算每个位点的逃逸潜力评分。结果显示，随着微调数据增加，模型预测精度持续提升。即使仅使用10%的深度突变扫描数据，UniAIR依然能够成功识别出大部分高风险逃逸位点。

此外，模型预测的关键逃逸位点氨基酸偏好与实验结果高度一致。例如，对于25.10C抗体，UniAIR预测228位点的芳香族或带正电氨基酸替换会显著削弱结合，导致免疫逃逸。结构热图分析进一步显示，高逃逸位点会聚集在对应抗体的结合表位区域。

图4：UniAIR在拉沙病毒GPC抗原逃逸预测中的少样本学习结果。

UniAIR联合FEP实现KRAS新抗原肽优化

为了验证UniAIR在实际免疫治疗设计中的潜力，研究人员构建了一个结合自由能微扰（FEP）的迭代优化流程，专门针对KRASG12D新抗原肽进行优化。他们首先使用UniAIR对9-mer肽段进行深度突变扫描，再通过FEP验证筛选出的高分突变。

经过多轮优化后，获得了一系列能够同时增强肽段–HLA与TCR–pHLA结合能力的突变体。分子动力学模拟显示，这些突变体具有更高的氢键数量和更稳定的界面接触，整体结合稳定性显著提升。部分突变还能更好地填充HLA结合槽中的空腔，为结合增强提供了明确的结构基础。

图5：UniAIR结合FEP进行KRASG12D新抗原肽优化的整体流程与分子动力学分析。

UniAIR能够处理预测结构与不完整结构

最后，研究人员评估了UniAIR-LT在预测结构场景中的表现。结果显示，即使使用ESMFold或OpenFold的预测结构，UniAIR仍然优于所有仅基于序列的方法；加入潜空间适配器后，模型性能又得到了进一步提升。

通过t-SNE与余弦相似度分析发现，适配器能够有效缩小预测结构与实验结构之间的表示差异，降低预测偏差。在一些结构预测错误较为严重的案例中，UniAIR-LT仍然能够显著恢复预测能力。

此外，在拉沙病毒GPC结构不完整的真实案例中，UniAIR-LT依然成功识别出了关键功能逃逸位点，说明其确实具有强大的真实应用潜力。

图6：UniAIR-LT在预测结构与不完整结构条件下的性能提升与结构表示对齐分析。

讨论

这项研究提出的UniAIR，首次构建了一个统一的多模态免疫突变效应预测框架，实现了从抗体—抗原到TCR–pHLA等多类免疫识别任务的统一建模。与传统针对单一任务设计的方法相比，UniAIR通过标准化数据处理、多专家融合以及潜空间适配机制，大幅提升了模型的泛化能力与真实场景适应能力。

结果表明，UniAIR不仅能够高精度预测突变对免疫识别的影响，还能在极少实验数据条件下完成抗原逃逸分析、抗体成熟与新抗原优化等复杂任务。特别是与FEP等高精度物理模拟方法结合后，UniAIR展现出了强大的高通量筛选能力，为未来AI驱动的免疫治疗设计提供了一种新的工作范式。

此外，UniAIR-LT对预测结构误差的鲁棒适配，也解决了当前结构生物学中实验结构不足的重要瓶颈。这意味着，未来即使缺少高分辨率实验结构，研究人员依然能够利用预测结构进行高质量的免疫识别建模。

总体来看，UniAIR为理解适应性免疫识别中的突变景观提供了一个统一计算框架，也为疫苗开发、抗体工程、TCR设计以及个性化癌症免疫治疗带来了实实在在的推动。

参考资料：

Han, R., Zhang, Y., Liu, X. et al. Generalizable mutation-effect prediction across adaptive immune recognition via unified multimodal framework. Nat Mach Intell (2026).
https://doi.org/10.1038/s42256-026-01243-7

来源：https://cloud.tencent.com.cn/developer/article/2680137

Intel