AlloGen差分状态打分实现蛋白结合物构象选择性设计

时间：2026-06-09 15:37

提出构象选择性设计方法AlloGen，通过轻量化的SE(3)不变边偏置图Transformer打分器Qθ（约89 8万参数）实现可微分、可迁移的差分状态打分。该打分器可重排序或梯度引导任意骨架生成器，在覆盖65靶点、2896复合物的基准测试中，与DockQ的Spearman相关性达0 520，优于传统能量函数。前瞻实验验证了高选择性设计。

在蛋白结合物设计领域，长期以来，研究人员主要关注一个核心指标——亲和力。优化的全部目标就是让设计的分子与靶点结合得越牢固越好。然而，对于激酶、核受体、GPCR这类本身具有变构特性的靶点，情况则完全不同：一个能同时结合激活态（holo）和失活态（apo）的结合分子，在功能上实际上缺乏特异性。换句话说，如果你设计的分子对两种状态都“紧抓不放”，那么它究竟稳定了靶点的哪个构象状态？这便成为了一个关键问题。

这个研究空白，正是AlloGen力求填补的。它的核心贡献在于，将“构象选择性”重新定义为一个可学习、可迁移、甚至可微分的界面属性，并将其蒸馏进一个轻量级的评分器Qθ中——该模型仅包含约89.8万个参数，是一个基于SE(3)不变性的边偏置图Transformer。尤为巧妙的是，Qθ与生成器是解耦的，无需重新训练即可直接应用。它既可以作为一个被动的重排序器，也可以作为主动的梯度引导模块，无缝接入任意一个骨架生成器。

为验证这一构想，作者构建了一个覆盖65个靶点、15个蛋白家族、总计2896个复合物的基准测试集。结果令人信服：在分布外（OOD）靶点上，Qθ与DockQ的Spearman相关性达到了0.520，而所有基于接触的能量打分函数在该测试集上均表现失效，几乎无法提供有效信号。最后，作者通过钙调蛋白（CaM）上的一轮前瞻性湿实验为结论提供了关键证据：Qθ给出的高分设计，确实产生了多个特异性结合holo态的肽，而低分的阴性对照则完全不结合，并且——没有一条设计会结合apo态。

1. 背景与问题定义

1.1 蛋白质是构象开关

蛋白质在不同构象状态之间动态切换——这是调控信号传导、催化反应和变构效应的底层机制，几乎适用于所有蛋白家族。因此，对于治疗性靶点，设计的目标不应仅仅是“结合的牢固程度”，而应该是“构象选择性”：你需要稳定一个特定的功能态，同时主动排除其他状态。这一思路是变构药物设计、构象生物传感器乃至合成生物学开关的核心出发点。

1.2 现有生成式方法的共同盲区

近年来，生成式方法在序列和结构两个层面都取得了显著进展。序列层面包括掩码语言模型、对比语言模型和多目标离散扩散；结构层面则有RFdiffusion、PXDesign、Proteina-ComplexA、BoltzGen、BindCraft等。但客观而言，它们共享一个根本性局限：都仅以单一受体的构象为条件，仅着眼于如何贴合该结构进行优化。

这直接导致了另一个问题：传统打分函数衡量的是绝对亲和力，而非跨两个状态的差分亲和力，因此它无法提供任何关于构象选择性的信号。其后果是，你为holo态设计的一个结合分子，可能同样牢固地结合了apo态——那么状态选择性这一初衷便完全落空了。

1.3 问题的形式化

沿着这一逻辑进一步推导，我们可以这样形式化理解：假设目标蛋白存在两个构象态——apo（非期望态）和holo（目标态），两者均以骨架坐标表示。那么，给定一个结合分子骨架，状态选择性打分问题便转化为学习一个函数，使得它对“正确”的候选满足一个特定不等式：即该候选在holo态下的打分，必须高于在apo态下的打分，且高出足够大的幅度。

请注意，这里的关键在于条件性：非选择性的结合分子、偏好apo态的结合分子以及根本不结合的分子，都不需要满足这个条件。训练的目标是通过配对对比监督来实现这一点，而不是人为地给所有数据引入一个全局偏置。在拥有一个冻结的生成器后，两态设计任务便简化为：在大量生成的候选中，筛选出选择性最高的那个。

2. 方法：AlloGen 框架

2.1 设计哲学——生成与打分解耦

AlloGen最关键的洞察在于：构象选择性实际上是受体-结合物界面上一种可迁移的属性。一旦将其蒸馏进一个可微分的评分器，它就能在事后（post hoc）发挥两种作用——要么作为被动重排序器，要么作为主动引导器。其流程清晰明了：首先，使用冻结的生成器对holo态生成N个候选骨架；然后，Qθ对每个候选同时评估其在holo和apo状态下的表现；最后，依据选择性间隔进行排序，返回最优结果。Qθ是独立训练的，与生成器无关，因此可插入任意生成器而无需重训——这是该框架在工程上最具价值的一点。

2.2 蛋白骨架表示与SE(3)不变性

每个残基由Cα坐标和一个局部骨架坐标系表示，后者通过Gram-Schmidt正交化构建。为确保物理合理性，Qθ必须满足SE(3)不变性——即不受旋转和平移的影响。作者采用的方法是在残基的局部坐标系中，表达所有残基间的几何关系：包括距离、单位方向及相对取向。这些量在整体施加刚体变换时保持不变，因此Qθ本身天然具备SE(3)不变性。

2.3 界面图构建

每个复合物都被表示为一个稀疏的界面图：图中包含来自受体和配体、且至少有一条8 Å以内跨链Cα接触的残基；边则连接该截断范围内的所有残基对。节点特征包括：氨基酸类型的one-hot编码、骨架二面角（用sin/cos编码）、侧链二面角（无侧链自由度时用零填充）、链指示位以及可选的逐残基ESM-2嵌入（投影后拼接，提供进化上下文）。边特征则全部在残基局部坐标系中计算以保证不变性：距离用16维高斯RBF编码（中心2-12 Å），此外还包括单位方向、相对取向、序列分隔（分箱处理，跨链设为最大箱）及同链指示位。

2.4 Qθ：边偏置图Transformer

Qθ的实现简洁高效：4层、隐藏维度128、8个头的稠密边偏置图Transformer。每一层的注意力都将边嵌入投影为逐头的标量偏置，直接加到点积的logit上。边嵌入仅计算一次，跨层共享。经过4层处理后，将均值池化和最大池化结果拼接，再通过一个带sigmoid的MLP输出一个介于0到1之间的有界分数。该结构总共仅约89.8万个可训练参数，推理速度极快。

2.5 两阶段训练课程

这里有一个棘手的训练问题需要处理：如果直接优化选择性，模型很容易退化——它会完全忽略受体的构象，只要看到特定受体便直接给出高分。作者通过一个两阶段课程巧妙地规避了这一风险。

第一阶段称为界面质量回归。以DockQ（一个融合了原生接触比例、界面RMSD和配体RMSD的标量）作为监督目标进行回归。训练数据包含原生的holo结构、apo错配、刚体诱饵以及硬负样本。该阶段的目的是先建立“什么样的界面算好界面”这一几何基础，为第二阶段提供稳定的初始化。

第二阶段是选择性微调。在配对的三元组（同一个结合分子在holo和apo下的状态）上，使用多负样本的InfoNCE损失进行微调。这里的两类负样本各有用途：apo负样本迫使模型区分同一个结合分子在不同构象下的表现；跨靶点负样本则迫使模型区分真正的holo搭档与结构无关的其他holo受体，从而防止模型的注意力坍缩到固定的受体偏置上。

此外，作者还引入了一个“binder dropout”技巧：推理时，Qθ只能看到没有序列信息、没有侧链的结合分子骨架，但训练时的复合物都包含完整序列——这就产生了分布偏移。为解决这个问题，在训练过程中以一定概率屏蔽掉结合分子的侧序列特征，仅保留骨架二面角和边特征，迫使Qθ依赖骨架几何而非序列身份来做判断。

2.6 选择性间隔与四种引导策略

在logit空间中，选择性间隔可以自然地定义，并能推广到多状态情形。由于该间隔对结合分子骨架坐标是可微分的，因此Qθ支持四种不同的引导策略：Langevin精修（在完全去噪的骨架上进行梯度上升，梯度最可靠但依赖生成器先验）、Classifier guidance（在每个去噪步注入梯度，但高噪声下梯度容易退化）、TDS扭曲扩散采样（按预测分数对粒子重加权，不改去噪轨迹，更忠实于生成先验）以及SMC序贯蒙特卡洛（跨多轮按分数重采样完整轨迹，是跨架构最稳健的选项）。所有候选在选出前，还会先经过最小界面尺寸和立体冲突的过滤，序列则由ProteinMPNN在选定的骨架上设计。

3. 数据集与评测协议

3.1 靶点与样本构造

作者构建了包含65个两态蛋白的数据集，横跨15个蛋白家族，共计2896个复合物。入选标准十分严格：需具备apo和holo双态的实验结构、目标态至少有3个含肽或蛋白结合物的共晶结构、且两态之间必须存在结构上明确的构象变化。该构象变化的幅度跨度极大——从CaM约30 Å的大尺度结构域重排，到ERα的H12约10 Å、ABL1的DFG-loop翻转约6.5 Å、以及CDK2在Cyclin A诱导下的微妙重定位。家族覆盖范围广泛：包括激酶（9个）、小GTP酶（6个）、核受体（5个）、GPCR/离子通道（6个）、蛋白酶（6个）等共15类。

每个复合物会生成12个基础训练样本：1个原生holo（标签1.0）、1个apo错配（标签0.0）以及10个刚体诱饵（Cα RMSD 1-8 Å）。此外，还有959个通过FastRelax生成的硬负样本。三类增强进一步丰富了训练数据：跨家族负样本、构象诱饵（利用Rosetta FastRelax重打包产生的近原生硬负样本）以及GenDecoys（来自结构生成模型的合成结合分子，共4862个，提供更多样化的非原生界面几何结构）。

3.2 数据划分与配置

主要结果采用target split（51/6/8的划分方式），CaM被特意移入OOD测试集作为主要设计靶点，ALK移入训练集。关联靶点（如SRC和SRC-SH2）被强制分到同一个分区中，从源头上杜绝信息泄漏。OOD测试集包含8个靶点：CaM、BCL-2、ERα、MDM2、Ran、A2A、PAI-1和Integrin。验证集则包含6个靶点。

3.3 评测指标

评测主要采用与DockQ的Spearman相关性（界面质量的秩相关）、选择性间隔以及best-of-K成功率。设计评测还使用了ProteinMPNN的ΔNLL和AlphaFold 3的ΔipTM等与Qθ无关的指标，并报告了三个独立Qθ检查点之间的共识选择性。

4. 结果

4.1 Qθ作为打分器的OOD泛化

在8个训练时完全未见的OOD靶点上，Qθ与DockQ的平均Spearman相关性达到0.520（三个不同随机种子的平均值）。八个靶点的相关性均为正值，其中四个超过了0.5。

4.2 关键消融

一系列消融实验结果颇具启发性。首先，两阶段训练优于单阶段：第二阶段的对比微调将八靶点的均值从0.481提升至0.520，增益主要集中在最困难的靶点上。这是一次明确的“以易换难”权衡。其次，InfoNCE的batch size设为256时效果最优（0.530），512导致softmax过饱和，64则提供的跨靶点负样本不足——但所有InfoNCE配置均优于纯第一阶段的回归（0.489）。GenDecoys贡献了最大的单项增益，因为它提供了更难的负样本。ESM-2嵌入和binder dropout也各自发挥作用，移除任何一个都会在最难的OOD靶点上造成最大降幅，而两者齐备时八靶点全面达到最优。

4.3 学到的是“构象”而非“通用结合质量”

这是全文最核心的因果追问。作者通过四组严谨的实验进行了回应。

第一，对照能量打分函数的完胜。三种基于接触的能量打分函数在8个OOD靶点上完全无法追踪DockQ的变化趋势，而Qθ的表现则非常稳定。

第二，响应的是“特定构象”而非“通用形状”。将每个靶点的50个结合分子交叉作用于全部8个受体上，矩阵对角线的值超出非对角线近20倍。这表明Qθ并非在判断“这个界面质量好不好”，而是在判断“这个界面是否符合我要的那个构象”。

第三，群体层面的holo优于apo。在50个不做任何引导的vanilla设计中，7/8的靶点均显示出正向的holo-apo间隔。BCL-2甚至在每一个设计上都能将两态区分开。唯一较为困难的靶点是Integrin，其间隔非常微小。

第四，学到的是连续构象地形，而非简单的二元开关。沿着CaM从apo到holo的路径取11个插值构象进行打分，Qθ的分数呈单调递增趋势，说明它学到的确实是跨整个转变过程的连续结构景观。

4.4 选择性引导：跨架构基准

作者在3个架构不同的生成器上，配合5种模式（vanilla加上4种引导策略）——共计15种组合——进行了测试。结果呈现出一致规律：重采样类的引导（TDS和SMC）表现最强，在所有组合中排名第一或第二；Classifier guidance则很少能超越vanilla基线——说明轨迹级重加权确实可跨架构迁移。Langevin精修依赖于生成器的先验：它改善了纯结构生成器的效果，但却拖垮了序列敏感的PXDesign，因为后者共设计的界面几何在被扰动后容易失稳。此外，靶点本身的影响力超过了方法选择：BCL-2在所有15种组合中均表现出强选择性，而Integrin、ERα和PAI-1则在所有组合下表现较弱。ERα尤为有趣：其打分相关性排名第二，但设计出的选择性却排名靠后——问题出在生成环节而非打分环节，因为当前生成器还无法提出能充分利用其微妙H12重定位的骨架。

4.5 为什么Langevin优于Classifier guidance（机理解释）

作者测量了Qθ梯度在噪声扰动下的余弦相似度：从σ=0.1 Å时的0.75，一路降至σ=0.5 Å时的0.12，当σ≥2.0 Å时则趋近于零。将该曲线映射到RFdiffusion的去噪调度后会发现，Classifier guidance在大约96%的轨迹时间内，都处于“梯度无信息”区域——仅在最后2到3步中才具备可靠梯度。而Langevin精修仅在约σ=0.04 Å的完全去噪骨架上操作，因此完美避开了这个无信息区域。这为“为什么Langevin有效”提供了一个清晰的定量解释。

4.6 重排序 vs 梯度精修

在CaM这个靶点上，即便仅使用vanilla生成池，也已获得相当不错的基线表现。而Qθ作为被动重排序器的表现同样强劲：best-of-5即可达到良好的选择性间隔，best-of-10效果更佳，甚至超过了Langevin精修的效果。Bootstrap验证也确认，增益会随候选池规模增大而增长（超过10个后边际收益递减）。结论明确：两种策略互补。重排序在候选池足够大时能高效扩展，而Langevin在候选数量有限、需要逐设计微调的情况下更具优势。

4.7 独立打分器交叉验证

为排除“用自身信号自证”的嫌疑，作者引入了多个未参与训练的独立打分器。Boltz-2的ΔipTM在5/8的靶点上显示正相关性，AlphaFold 3的ΔipTM在ALK和ERα上展现了100%的holo偏好。Rosetta InterfaceAnalyzer在BCL-2和Integrin上的表现也与Qθ在最强和最弱端的排序一致。而ProteinMPNN的ΔNLL则揭示了一个细节：vanilla设计在全部8个靶点上均已显著偏好holo态——这说明holo偏置本身就存在于生成的骨架中，无需Qθ才能检出。但Langevin精修在部分靶点上能同时降低ΔNLL并提升Qθ得分——证明这两个指标衡量的是正交维度：Qθ捕捉的是几何选择性，而ΔNLL捕捉的是序列恢复的似然。两者互不充当对方的地面真值。此外，退化鲁棒性测试也相当扎实：在482个CaM设计中，仅10个表现出负选择性，且全部是截断或立体不可行的退化骨架，没有一个是真正欺骗了评分器的apo选择性设计。

值得单独强调的是，三个独立的打分工具仅在表现的两端保持一致，在中间靶点上则各有分歧。作者指出，这本身就是一个有信息量的信号——因为Qθ衡量的是构象选择性，而其他工具衡量的是整体界面能，两者本来就不需要完全重合。

4.8 湿实验：AlloGen肽选择性结合holo CaM

这是全文最具说服力的一环。作者从多个生成器和引导策略的组合中，依据预测的选择性间隔选出了10条候选肽，外加1条低分的阴性对照和经典的Ca²⁺依赖的M13阳性对照。

关键在于，候选的筛选漏斗被刻意设计为与Qθ无关：先利用双态热点条件化生成、再通过ProteinMPNN设计序列、接着使用Boltz-2进行双态重折叠、然后以埋藏面积和ipTM等指标进行过滤、最后用CD-HIT去冗余——这确保了检验的公平性。结合实验采用生物层干涉（BLI）进行测量，holo CaM加CaCl₂、apo CaM加EGTA，其他所有条件保持一致。

结果非常直接：10条候选肽中有5条结合了holo CaM，亲和力介于46.6 nM至1.06 µM之间，且全部来自高选择性间隔的区间。阴性对照则完全没有可测的结合。而且——没有一条设计结合了apo态。

这是直接的物理证据：Qθ学到的选择性信号，能够转化为实验上可测的结合特异性。

5. 创新点剖析

纵观全文，AlloGen的创新可概括为几个层面。首先是一个范式转变：它首次将构象选择性确立为一个可学习、可迁移的目标，而非像过去那样仅能依靠个案式的负设计经验来摸索。评分器和设计目标，从“绝对亲和力”转向了logit空间中的“差分亲和力”。其次是解耦与即插即用的设计：与生成器无关、可微分的Qθ既能作为重排序器也能作为引导器，无需重训即可接入任意骨架生成器，且逻辑上的间隔天然支持多状态推广。两阶段课程也是一大亮点：先用几何先行的DockQ回归打基础，再用对比学习在后微调——系统性地规避了“忽略受体构象”这一核心训练退化难题。训练和推理的对齐同样考虑周全：binder dropout迫使评分器学会仅凭骨架几何进行判断，完美匹配了真实推理时“对无序列骨架打分”的场景。最后是严谨的可信度工程：Qθ无关的候选漏斗、多个独立评分器的交叉验证、失败模式的审计以及前瞻性的BLI湿实验验证——层层设防，杜绝了“自证”和“作弊设计”的可能。

6. 局限与开放问题

当然，这篇文章也清晰指出了自身局限。目前仅演示了apo/holo的二元判别——虽然逻辑上支持多态，但多状态的构象景观尚未得到实验验证。生成端才是真正的瓶颈：ERα案例已清楚表明，即便评分器表现优异，如果当前生成器无法提出能利用微妙运动的骨架，便无济于事。AlloGen改善的是“选哪个”，而对“能否生成出来”无能为力。某些组合之间还存在结构性不匹配：例如PXDesign与Langevin引导是唯一出现负选择性的结果，原因在于序列感知的先验被骨架扰动破坏。引导策略与生成器内部机制之间需要匹配。困难靶点仍然棘手：Integrin在评分、群体偏好和引导各环节均表现最弱——框架对界面信号本身就很弱的靶点，改善幅度有限。部分指标仅能进行定向解读。而湿实验的边界也很明确：仅在单一靶点CaM上完成了验证，而CaM本身的构象变化最为剧烈，也是最“容易”的靶点之一。5/10的命中率虽不错，但亲和力大多处于亚微摩尔至纳摩尔级别，只能说温和。更重要的是，Δq这个选择性间隔预测方向非常精准——高分设计全具选择性、低分阴性对照失败、无apo结合——但它并不预测绝对亲和力或可表达性。最高Δq的设计反而完全不结合。换句话说，Δq是一个“选择性排序器”，而非“亲和力预测器”。

7. 意义与展望

总而言之，AlloGen将一个长期被认为“无解”的目标——构象选择性——转化为可学习、可迁移、可微分的工程设计信号。它在65个靶点、15个蛋白家族上验证了泛化能力，并通过湿实验完成了闭环。而它最具影响力之处，可能恰恰在于这种模块化设计：Qθ有望成为现有蛋白设计流水线中一个即插即用的组件。作者指出的方向也正好切中了上述局限：扩展到多状态的构象景观、将选择性直接整合进端到端的序列生成（而非仅仅事后重排或引导），以及最终推进到那些生物活性完全依赖于某个特定构象的治疗性靶点上去。值得期待后续的研究工作。

来源：https://cloud.tencent.com.cn/developer/article/2684324

其他