蛋白质是动态的活性分子,绝非静态的刚硬模型。它们在细胞内持续运动,随功能需求与环境变化在不同构象间灵活转换。结构生物学家都清楚一个现实:X射线晶体学、核磁共振、冷冻电镜等技术本质上捕捉的是大分子结构的“集合平均信号”——然而最终呈现的结构模型通常仅描绘一个主导构象,完全忽略了实际存在的构象异质性。
AlphaFold系列模型虽成就斐然,其成功得益于识别相邻氨基酸在空间上的共进化信号,并结合大量实验解析的结构数据,预测精度已接近实验水平。然而问题同样突出:训练目标本质上仍是预测“最可能”的单一结构,输出天然倾向于静态快照。训练数据中虽然隐含构象异质性,但模型无法显式表达。当前结构生物学亟需一种全新框架,能够生成与实验测量一致的蛋白质结构集合,而非仅一个静态快照。
实验引导AlphaFold3:让模型“看”到实验数据
这项工作的核心思路是将AlphaFold3重新理解为一个“序列条件结构先验”——即先让模型根据氨基酸序列对结构分布形成初步判断,随后将“构象集合建模”转化为给定实验测量条件下的后验推断问题。以往虽有方法将实验约束融入单结构预测,但本研究不同:研究人员直接修改AlphaFold3的生成过程,在采样环节引入实验似然作为引导项,使模型能同时满足序列信息和实验数据,从而生成构象集合。
方法
具体操作上,研究团队修改了AlphaFold3的反向扩散采样步骤,嵌入一个由实验似然函数导出的梯度引导项。该引导项本质上是一种数据依赖的“力”,在采样过程中驱动结构朝向与实验测量一致的方向移动。此外,通过一个缩放超参数控制引导强度,使模型能在完全依赖AlphaFold3先验与强实验约束之间灵活调节。该框架支持多种实验数据类型——包括核磁共振的距离约束、有序参数、X射线电子密度图以及冷冻电镜静电势图——只需定义好可微分的似然函数即可。采样完成后,通过力场能量最小化修正几何畸变并确保化学合理性,最后通过集合筛选挑选出最能解释实验观测的最小结构子集。

图1|实验引导 AlphaFold3 方法示意图。
从单结构到构象集合的跃迁
研究人员将AlphaFold3扩展为能够生成构象集合的模型。在每个反向扩散时间步中,模型不再仅输出一个结构,而是生成一组构象,随后根据实验观测计算似然。实验似然可作用于单个构象,也可作用于集合平均量——如平均原子间距离、电子密度或有序参数。实验似然的梯度作为引导项回传至扩散采样过程。最终获得的构象集合经过力场松弛和集合剪枝,保留一个紧凑且最能解释实验数据的小集合。
核磁共振:距离约束和有序参数双管齐下
首先以泛素作为核磁共振结构解析的基准测试。传统核磁共振结构解析高度依赖原子间距离约束,但逐一模拟构象易导致模式坍缩,所得集合过于刚性,无法反映真实动力学。采用NOE距离约束引导的AlphaFold3切实改善了距离约束的满足程度,显著减少了违背。与传统的PDB核磁共振集合及未引导的AlphaFold3相比,NOE引导模型生成的集合更富异质性,且计算时间仅需几分钟GPU——避免了传统集合分子动力学动辄数天的高成本。
进一步利用主链酰胺键有序参数进行交叉验证。未引导的AlphaFold3与传统核磁共振集合均偏向刚性,与实验动力学信号的一致性有限。引入NOE引导后,模型能更好地重现实验观测到的柔性区域与结构区域动力学。再加入有序参数引导项后,模型与实验有序参数的匹配度显著提升,逼近计算成本更高的核磁共振引导集合分子动力学结果。

图2|核磁共振引导的 AlphaFold3。
大规模基准测试结果扎实
研究人员在两个基准上进行了系统性评估:一个是此前已知AlphaFold3容易预测错误的8个肽结构,另一个是包含83个蛋白质的核磁共振谱数据库子集。整体来看,NOE引导的AlphaFold3在91个案例中有70个改善了距离约束满足程度(约77%),而未引导的AlphaFold3仅在15个案例中优于PDB集合。NOE引导在所有案例中均胜过未引导的版本。
研究还测试了将力场预测能量用于构象权重调整,或直接将力场整合进引导项。后一种方式效果更佳,约87%的案例中距离约束满足度得到改善,中位改善幅度约20%。这明显表明实验约束与能量信息可互补,能将采样分布推向更具热力学意义的构象集合。

图3|核磁共振和 X 射线晶体学基准测试的总体统计。
六个典型蛋白案例:单结构远不够
从具体案例来看,未引导的AlphaFold3经常过度预测有序结构——例如生成长度过大的螺旋片段。NOE引导增加了集合的异质性,改善了距离约束的满足程度,多个案例中优于相应的PDB核磁共振集合。在某些蛋白质中,AlphaFold3对局部结构的预测完全错误,引发大量距离约束违背,而NOE引导则明显减少了这些违背。还有一些结构,任何单一构象都无法完全满足实验距离约束,只有集合平均引导才能合理解释实验数据。这进一步证实了“构象集合”而非“单一结构”解释实验测量的必要性。

图4|六个蛋白质的构象集合生成示例。
X射线晶体学:捕获从未被建模的替代构象
AlphaFold3无法感知晶体环境中的离子、配体、其他大分子伙伴或晶体接触——但这些因素常导致局部构象变化。电子密度引导能够将预测修正至与晶体结构实验一致的状态。以HSP90α为例,配体结合状态影响邻近环区构象,未引导的AlphaFold3完全无法处理,而电子密度引导则恢复了与实验相符的局部结构。
该方法还能处理不同分辨率的电子密度图,在不同蛋白、不同序列长度及不同晶体环境中重建实验观测到的替代构象。对于晶体结构中因局部柔性而缺失的区域,电子密度引导的AlphaFold3可根据稀疏密度填补缺失片段,比普通AlphaFold3或常用修补工具更合理地解释局部电子密度。短肽结构尤为受益——AlphaFold3通常预测较差,因为短肽高度依赖结合伙伴环境,而电子密度引导可显著恢复肽段与实验密度的一致性。
更令人惊艳的是对替代位置的捕获能力。即使面对双峰或多峰电子密度,电子密度引导的AlphaFold3也能生成解释多模态密度的构象集合,有潜力发现此前从未被建模的替代构象。

图5|X 射线电子密度引导 AlphaFold3 重建结构和构象集合。
冷冻电镜:将原子级细节注入柔性区域
冷冻电镜通过静电势图捕获复杂蛋白复合物的构象信息,但标准重构流程依赖刚体共识模型,单一静电势图很难呈现粒子真实的热力学异质性。柔性区域的局部分辨率往往不足以精确放置每个原子。多个案例验证结果显示,利用冷冻电镜静电势图引导AlphaFold3,从头建模的精度确实得到了提升。
以胰岛素受体IR-B为例,在对称的apo状态和结合IGF2的非对称构象中,AlphaFold3倾向于过度对称化同源二聚体,尤其会错误预测非对称构象的大部分区域。引入静电势图引导后,生成的构象更符合观测密度。淀粉样β纤维案例更为极端——AlphaFold3完全误判了二聚化界面及二聚单元结构,而静电势图引导能够使结构与密度图一致。
多模态数据联合引导
结构生物学研究常同时使用多种实验技术。本框架天然支持整合冷冻电镜、核磁共振等多源数据。以RIPK3人源淀粉样纤维为例,联合使用冷冻电镜静电势图和固态核磁共振化学位移推断的二面角信息。AlphaFold3本身可在冷冻电镜分辨率范围内大致预测整体多聚体结构,单独用静电势图引导能提高密度拟合质量,但局部主链二面角和NOE约束拟合较差。联合使用静电势图、NOE和二面角引导后,模型在保持合理密度拟合的同时,局部结构准确性明显提升。

图6|冷冻电镜静电势图引导的多聚体结构重建。
讨论:一个新的结构生物学工作范式
这项研究本质上将AlphaFold3重新定义为一种强大的序列条件先验模型,能够被实验数据引导,生成小型、可检验的蛋白质构象集合——而非一个单一共识结构。这些集合应理解为受实验测量与模型先验共同约束的后验结构假设,而非完全校准的玻尔兹曼平衡集合。简言之,该方法解决了结构生物学一个非常实际的问题:生成一组紧凑构象,使其集合平均观测量能够解释异质实验数据。
框架的核心优势在于可以组合不同实验模态的似然函数——核磁共振原子间距离、二面角、有序参数,X射线晶体学电子密度,冷冻电镜静电势图。这些信息通过梯度注入AlphaFold3的反向扩散轨迹,经过结构松弛和稀疏集合选择,最终得到可解释实验数据的构象集合。相比传统PDB中单一结构或简化集合的表示方式,该方法能更充分呈现蛋白质构象景观中被掩盖的信息。
方法学上有三个关键特点值得注意。第一,构象集合在扩散过程中被联合引导,实验数据允许多种解释时可保留多样性,同时避免简单复制同一构象。第二,支持从局部到整体的策略——先针对环区等问题片段修正,再扩展到整条蛋白链,与晶体学、核磁共振研究人员的实际工作方式高度一致。第三,计算成本低,典型案例仅需几分钟,更适合作为现有结构解析流程的交互式助手,而非完全替代精修或分子模拟。
当然,局限性也很明确。生成的构象集合主要是针对给定实验数据和AlphaFold3先验的解释性集合,不等于真实热力学平衡群体。有限的实验观测不能唯一确定底层构象分布,不同构象集合可能同样解释数据。因此,集合中各构象的权重不应被过度解读为平衡态群体比例。加入力场能量后效果更佳,说明能量信息提供了与实验约束互补的限制,未来需要更紧密地整合能量先验和热力学观测。
引导强度和梯度处理的把控同样关键,尤其是在低分辨率冷冻电镜图或相位较差的晶体学电子密度图中,过强引导可能将模型拉向噪声。虽然集合剪枝和交叉验证可缓解过拟合,未来仍需要更严格的统计程序来区分真实热力学熵与模型不确定性。当前实现主要聚焦蛋白质,对配体、金属、翻译后修饰、结构水以及复杂对称性的处理有限。更准确地建模配体也将有助于区分天然热力学构象异质性与组成异质性。
总体而言,实验引导AlphaFold3为主流结构生物学流程提供了新的改进路径。在晶体学中,它可以帮助提出替代构象和占有率,修复弱电子密度区域中的环区,并通过提供少量已符合密度图的候选构象加速模型构建。在核磁共振中,它可以快速解释NOESY谱和弛豫数据,省去数天的分子动力学模拟。在冷冻电镜中,它可以将原子级细节注入柔性区域,在局部分辨率有限时结合二面角或二级结构信息。以构象集合为中心的结构建模,有望成为晶体学、核磁共振和冷冻电镜中的常规工具,并在配体发现、变异解释以及稳定或揭示隐蔽构象状态的实验设计中产生近期影响。
参考资料
Maddipatla, A., Sellam Bojan, N., Bojan, M. et al. Experiment-guided AlphaFold3 resolves measurement-consistent protein ensembles. Nat Biotechnol (2026). https://doi.org/10.1038/s41587-026-03166-5
