从事蛋白设计的研究者大概都有类似体验:借助 RFdiffusion、BindCraft 等工具生成一批候选结合子已不算困难,真正的难题在于——合成之前,到底该相信哪个?
长期以来,这个问题缺乏系统性的答案。大家通常依赖一些经验性的启发式规则对候选进行排序,比如观察 pLDDT 是否够高、ipAE 是否够低,但很少有人在大规模统一数据集上认真比较过这些指标的预测效能。
这项研究恰好填补了这一空白。数据集涵盖 3,766 个具有实验结合数据的 de novo 结合子,涉及 15 个靶点、4 套结构预测工具,每个设计提取了 200 多个结构、能量、置信度与序列特征——简而言之,这是一次大规模的“赛马”分析,旨在找出哪个指标(或哪些指标组合)能最有效地提前告知哪些候选值得投入合成。

速览
直接给出核心发现:AlphaFold3 提供的 ipSAE_min 是当前表现最稳定、区分能力最强的单一指标,其平均精度(AP)约为常用指标 ipAE 的 1.4 倍。如果再结合一些正交的物理化学界面描述符,比如 Rosetta 的 ΔG/ΔSASA、界面形状互补性,预测性能还能进一步提升。不过,一个有意思的结论是:简单的线性模型用好少数几个特征就足够了,堆砌特征、添加交互项,甚至换成 XGBoost,都没有带来额外收益。
| 关键数字 | 值 |
|---|---|
| 汇总结合子总数 | 3,766 |
| 靶点数 | 15 |
| 真实结合子(阳性) | 436(11.6%) |
| 每个设计的特征数 | 200 |
| 结构预测工具 | 4 |
| 靶点长度范围(残基) | 60–621(均值174,中位101) |
| 流水线提速 | 每个设计1802 s → 230 s(↓87%) |
1. 背景:为什么“筛选”才是真正的瓶颈
过去两年,RFdiffusion、BindCraft、AlphaProteo 等方法已经能够仅凭靶点结构、无需天然模板,直接生成高亲和力的结合子。这在治疗、诊断和基础研究中得到了广泛应用。
但真正的成本并不在“生成”步骤,而在后续环节。设计软件通常一次输出成百上千个候选,而真正能在体外实验中结合的往往只有个位数。如果每个候选都去合成、做 BLI 或细胞分选,时间和经费都难以承受。因此in silico 预筛成为整个流程中最核心、也最棘手的部分——尤其当候选池彼此高度相似时,要从中分出优劣,难度可想而知。
一个关键的转折点是 Bennett 等人(2023)的工作,他们发现基于深度学习的结构预测(特别是 AlphaFold2)可以在实验前有效排序候选,显著提高成功率。由此衍生出的置信度指标——pLDDT、ipAE、ipTM——被证明能预测体外结合,甚至优于传统的 Rosetta 物理能量。
但目前依然存在三个明显的缺口:
- 没有公认标准:设计成功率高度不稳定,缺乏跨研究通用的候选优先级判定准则;
- 新模型未被系统评测:AF2 之后涌现了 AlphaFold3、Boltz-1、Boltz-2、Chai-1 等模型,在“预测体外结合”这一任务上谁能胜出,尚缺乏大规模比较;
- 泛化性存疑:层出不穷的新指标,能否跨大规模、多样化数据集泛化,并不清楚。而且多数 de novo 项目只产出极少量验证过的结合子,往往还聚焦在相关靶点上,很难在规模上做 benchmark。
这项研究正是针对这些缺口而来。
2. 数据集:3,766 个结合子 / 15 个靶点
作者从多篇已发表研究中汇总数据,构建了一个跨靶点类别、跨设计协议的大规模数据集。靶点涵盖:
- 受体酪氨酸激酶(RTK):EGFR、LTK、FGFR2、胰岛素受体(InsulinR)、TrkA
- 病原体来源抗原:SARS-CoV-2 RBD、VirB8
- 细胞因子受体 / 免疫调节因子:IL2Rα、IL7Rα、IL10Rα、PD-L1
- 其他:原癌蛋白 MDM2、蛇毒短链 α-神经毒素(sntx)、两个肽-MHC 复合物(pMHC)
将真实结合子的相互作用残基映射回靶点结构后可以看到,结合位点高度保守(Fig. 1A)。
2.1 数据来源(节选汇总)
| 数据来源 | 代表靶点 | 结合判定方式 |
|---|---|---|
| Adaptyv Bio R1 & R2(2025) | EGFR | BLI 测得 K_D < 10,000 nM |
| Bennett et al.(2023) | LTK、IL10Rα、IL2Rα | 细胞分选 Sc50 < 4000 nM,部分 BLI 验证 |
| Cao et al.(2022) | VirB8、InsulinR、TrkA、FGFR2、EGFR、IL7Rα、SARS-CoV-2 RBS | Sc50 < 4000 nM |
| Watson et al.(2023,RFdiffusion) | PD-L1、IL7Rα、TrkA、InsulinR、MDM2 | BLI 响应 > 阳性对照 50%(10,000 nM) |
| Johansen et al.(2025) | 两个 pMHC(NY-ESO / SILSY) | 分选前后 log2FC,无单一阈值,部分 BLI |
| Torres et al.(2025) | sntx | 酵母展示分选,部分 BLI |

2.2 数据集的两个关键特征(也是后续分析的难点)
- 极度不平衡:仅 436 个(11.6%)为真实结合子,且各靶点的测试数与阳性比例差异极大(Fig. 1B)。这直接决定了后文用平均精度(AP)而非 AUROC 作为主评价指标。
- 标签噪声不可忽视:结合判定未跨研究标准化——亲和力阈值与检测形式(BLI、酵母/细胞分选 Sc50、log2FC 等)各不相同(见 Table 1)。
为了排除数据冗余带来的偏倚,作者对靶点与结合子序列相似性都做了评估(Fig. S1):除两个 pMHC 靶点之间、以及 pMHC NY1 结合子内部存在预期内的相似性外,整体序列多样性都很高——结论不是被冗余撑起来的。此外,对 Bennett 与 Cao 的数据按非结合子∶结合子 = 10∶1 进行了下采样,Adaptyv 数据中的抗体类结合子被剔除,以保持“纯 de novo”聚焦。
3. 打分流水线与提速
3.1 流水线设计(Fig. 2A)
输入是各设计工具产出的结合子–靶点复合物 PDB(binder = 链 A,target = 链 B),配一个 CSV 指定靶点子链范围与 MSA 设置。不同工具的处理方式不同:
- AF2 initial guess:用输入 PDB 固定靶点结构,仅重预测结合子(为高通量而生,作为本研究的参照基线);
- ColabFold / Boltz-1 / AF3:提取结合子序列 + 相关靶点子链,重预测整个复合物;每条唯一靶点链用 MMseqs2 生成一次 MSA 并复用,再转成各模型所需格式。
随后从各模型输出中抽取置信度分数,并统一计算 ipSAE、pDockQ、pDockQ2、ipAE、LIS(AF2 initial guess 除外),再对最高置信复合物计算一系列结构指标及模型间两两 RMSD——合计 200 多个特征/设计。

3.2 三档配置与提速结果(Fig. 2B–D)
为了压缩“结构预测耗时”这一主要瓶颈,作者在 56 个真实结合子(覆盖 15 个靶点 + 3 个额外靶点;其中 12 个有实验解析结构)上测试了三档配置:
| 配置 | MSA 策略 | 模型数 | 每个设计总耗时 | AF3 耗时 |
|---|---|---|---|---|
| Maximum | 各工具默认成对 MSA | 5 | 1802 s | 1441 s |
| Intermediate | 仅靶点单一 MSA,复用 | 5 | 282 s(↓84%) | 33 s(↓97%) |
| Minimal(最终采用) | 仅靶点单一 MSA + 减 recycle | 3 | 230 s(↓87%) | 29 s(↓98%) |
AF3 的提速最为显著,主要是因为跳过了基于 JackHMMER 的 MSA 生成。关键是:用 12 个实验结构验证发现,ipAE(模型质量)与 DockQ(结构吻合度)在三档之间没有显著下降——也就是说,提速几乎不以精度为代价。因此后续分析全部采用 Minimal 配置(运行于单张 NVIDIA L40S)。
4. 核心指标:ipSAE 是什么,为什么 _min 最强
要理解本文的核心结论,需要先厘清几个置信度指标的差异。
4.1 ipSAE 的设计动机与公式
ipSAE(interaction prediction Score from Aligned Errors)由 Dunbrack(2025)提出,可以看作对 ipTM 的“界面聚焦式”修正:
- 它与 ipTM 算法相似,但只纳入 pAE < cutoff(默认<10)的链间残基对;
- 它按界面规模动态调整 d0(d0 随界面残基数的平方根增大)。
其计算形式为(A→B 方向):
ipSAE(A→B) = max over i∈A [ mean over j∈B, PAE_ij < cutoff ( 1 / (1 + (PAE_ij / d0)^2) ) ]
直观含义就是:只统计那些真正自信的界面接触,并对“小而自信”的界面打折——因为很短的界面在物理上不太可能形成真实结合。这使得 ipSAE 比 ipAE 更具一致性、更不依赖具体靶点。
4.2 _min 的由来
由于 A→B 与 B→A 不对称,作者保存了两个方向的最大与最小值:
- ipSAE_max:标准实现,取较大值;
- ipSAE_min:取较小值——“最弱的一环”最能反映结合状态。
作者还探索了在 A 维度上把 max 算子替换为 avg/min 的变体(ipSAE_avg、ipSAE_min_in_calculation),以及若靶点有多个子链则在“有实际相互作用残基”的方向上取均值。
4.3 核心指标速查表
| 指标 | 含义 | 计算于哪些模型 |
|---|---|---|
| pLDDT | 每残基置信度 | 全部 |
| ipAE(pae_interaction) | 结合子链到其他链的平均链间 pAE | 全部 |
| ipTM | 界面预测 TM-score(链相对位置置信度) | 全部 |
| ipSAE / ipSAE_min | ipTM 的界面聚焦修正,pAE<10,d0 动态;_min 取双向最小 | AF3 / ColabFold / Boltz-1 |
| LIS | 链间接触(pAE<12)反转后取均值(0–1) | AF3 / ColabFold / Boltz-1 |
| pDockQ / pDockQ2 | 由 pLDDT + 界面预测的 DockQ | AF3 / ColabFold / Boltz-1 |
| DockQ | 与参考结构的界面相似度(此处以输入结构为参考) | 全部 |
| interface_ΔG | Rosetta 估计的界面结合能 | 输入 + 各模型 |
| interface_ΔG/ΔSASA | 结合能按界面大小归一(惯例×100) | 输入 + 各模型 |
| interface_sc | 界面形状互补性 | 输入 + 各模型 |
| ΔSAP(sap_delta) | 空间聚集倾向差值,疏水性强 | 输入 + 各模型 |
| RMSD_binder(input vs AF3) | 对齐靶点后,输入与 AF3 预测结合子的 Cα RMSD | 跨模型对比 |

4.4 四个工具的角色对比
| 工具 | 版本 | 处理方式 | 备注 |
|---|---|---|---|
| AF2 initial guess | dl_binder_design v1.0.0 | 固定靶点,仅重预测结合子 | 高通量参照基线;不计算 ipSAE/LIS |
| ColabFold | localcolabfold v1.5.5(AF-multimer) | 重预测整个复合物 | MMseqs2 MSA |
| AlphaFold3 | v3.0.1 | 重预测整个复合物 | 综合最佳 |
| Boltz-1 | Boltz-1x v1.0.0 | 重预测整个复合物 | 开源 AF3 类模型,最接近 AF3 但仍略逊 |
5. 哪些特征最能预测结合
5.1 单特征:全数据下的最佳是 AF3 ipSAE_min
用 AP 衡量各特征区分结合/非结合的能力,各模型的最佳单特征为:
- AF3 / ColabFold / Boltz-1:ipSAE_min、ipSAE_max、LIS——全部是基于 pAE 矩阵、且仅捕获高置信界面的分数;
- AF2 initial guess:ΔSAP。
全数据下的最佳单一指标是 AF3 ipSAE_min。 作者也提醒:部分数据此前已用 AF2 initial guess 的 ipAE/pLDDT 预筛过(Fig. S9、S10),可能人为压低了这两个指标在本数据上的表观预测力。
5.2 交互特征:置信度 × 物理化学描述符
作者进一步引入交互项(两特征的乘积 f_i × f_j)。结果显示,加入交互项后各模型预测力都一致提升,最佳组合为:
| 模型 | 最佳交互组合 |
|---|---|
| AF3 | ipSAE_min × interface_ΔG/ΔSASA |
| ColabFold | ipSAE_min × input_interface_shape_complementarity |
| Boltz-1 | LIS × input_ΔSAP |
| AF2 initial guess | DockQ × input_ΔSAP |
规律很清晰:除 AF2 initial guess 外,最优组合都是“界面聚焦的置信度分数 + 物理化学界面描述符”——说明二者捕获的是正交、互补的信息。整体而言,AF3 在单特征与交互特征上都全面胜出,说明它给出的置信度与复合物结构最准确。
5.3 跨靶点稳健性:换个视角看“中位 AP”
由于数据按靶点不平衡,作者改用跨 15 个靶点的中位 AP(削弱个别靶点的离群影响)重排。各模型 top 单特征:ipSAE_min(AF3、Boltz-1)、actifpTM(ColabFold)、pAE_interaction(AF2)。其中AF3 ipSAE_min 仍然最突出;叠加物理化学描述符(AF3 加形状互补性、Boltz-1 加 ΔG/ΔSASA 等)同样能稳定提升 AP。
6. 靶点依赖性:为什么有的靶点天生难预测
这是本文最有“降温”意味、也最诚实的一节。
- 跨靶点波动极大:AF3 ipSAE_min(及其与 ΔG/ΔSASA 的组合)在不同靶点上的 AP 从 0.1 一路到 1.0;真结合子很少的靶点常是离群点,多半反映统计波动(Fig. 3B)。
- 阈值稳定,但精度不稳定:让 ipSAE_min 的 F1 最大化所对应的阈值,在多数靶点落在 0.5–0.8;但对应的精度仍在 0.1–1.0 间剧烈波动(Fig. 3C)。各靶点的 top 特征也相当不同(Fig. S11)。
- 什么样的靶点更好预测?(Fig. S12)
- ΔSAP(疏水性)与 AP 的相关性仅在 AF2 ipAE 上成立(Pearson r ≈ −0.68,p = 0.005);
- 但在 AF3 ipSAE_min 上不成立(r ≈ −0.04,p = 0.89)——说明 ipSAE_min 不依赖疏水埋藏,捕获的是不同维度的界面质量;
- AF3 ipSAE_min 的 AP 反而与界面氢键比例正相关、与 ΔG/ΔSASA 负相关——即“界面能量越密集的靶点越好预测”。但这些相关都偏弱、未达显著,且主要由少数靶点驱动。
7. 阈值策略:回顾性分析 + 交叉验证
候选筛选最终要落到“卡哪个阈值”。作者用留一靶点交叉验证(每次留出一个靶点,阈值在其余靶点上选定),对最佳单特征与交互特征做了回顾性评估,并以常用的 AF2 ipAE 与 AF3 ipTM 作基线。三种实用阈值策略对应:recall = 0.2 / recall = 0.4 / 最大化 F1(Fig. 3E)。
结论:
- AF3 ipSAE_min 及交互特征 AF3 ipSAE_min × interface_ΔG/ΔSASA、AF3 LIS × input_interface_shape_complementarity 在所有阈值下都优于 AF2 ipAE;
- AF3 ipTM 在 recall 0.4 与 max F1 时被超越,但在 recall 0.2 时排第二,且 IQR 更小——说明 ipTM 在“宁缺毋滥”的低召回区依然稳健。
精度-召回曲线(Fig. 3F)给出的 F1 最大化阈值:
- AF3 ipSAE_min:0.61
- AF3 ipSAE_min × interface_ΔG/ΔSASA:−1.5(越小越可能结合)
- AF3 LIS × input_interface_shape_complementarity:0.42
此外,对 ipSAE_min 做的“逐步增加训练靶点”分析(Fig. S13)表明:阈值很快稳定,精度与 F1 随训练靶点数增加而稳步提升。
8. 线性模型与贪婪特征选择:多特征真的更好吗?
作者进一步检验:把多个特征线性组合(而非乘积),能否跨靶点提升表现?方法是逻辑回归 + 贪婪前向特征选择 + 嵌套留一组交叉验证(15 个靶点逐一留出):
- 所有数值特征 z-score 标准化;类别不平衡用 class_weight="balanced" 处理;
- 内层用 l1 惩罚逻辑回归(liblinear),以中位 AP 选特征,AP 增益 < 0.005 即早停,防过拟合;
- 分别对每个工具的“单特征”“单特征 + top50 交互项”以及“跨模型合并”做了实验。
结果(Fig. 4A,Fig. S14–S15):
- 没有任何模型超过最强基线 LIS × input_interface_shape_complementarity(中位 AP = 0.58,IQR 0.33–0.66);
- 但用 AF3 单特征训练的模型中位 AP = 0.57(IQR 0.40–0.66,方差更小),超过了最佳单特征 ipSAE_min(≈0.54);
- 内层平均只选了 2–5 个特征就停止改进;
- 跨模型合并特征 → 不提升(像是引入噪声);加交互项 → 不提升(选入更少,说明多数交互项不跨靶点泛化);换 XGBoost → 仍不提升(Fig. S15)。

特征重要性(AF3 单特征模型,Fig. 4C):ipSAE_min 在所有折中均被选中,稳健性再次得到印证;之后选择频率与系数断崖式下降。值得注意的是,两个结构对比类特征频繁入选——RMSD_binder(对齐靶点后输入 vs AF3)与 RMSD_complex(整复合物 输入 vs AF3);此外 input_interface_shape_complementarity 与 interface_ΔG/ΔSASA 也常被选中。
三特征模型(Fig. 4D):取 top-3 特征 AF3 ipSAE_min + RMSD_binder + input_interface_shape_complementarity 重训逻辑回归,同时加这两个特征比只加其中之一带来的 AP / 精度 / F1 提升都更大——即少量补充特征确实能进一步抬升实验成功率。
9. 落地建议:可直接复用的筛选 SOP
作者把上述发现凝练成两套可直接执行的筛选策略(任选其一或组合):
方案 A — 单刀直入,卡一个阈值(三选一)
AF3 ipSAE_min > 0.61
AF3 ipSAE_min × interface_ΔG/ΔSASA < -1.5 # 越小越可能结合
AF3 LIS × input_interface_shape_complementarity > 0.42
方案 B — 先粗筛,再排序(推荐用于大批量)
Step 1 预筛选(作用于“设计的输入结构”,无需折叠即可执行):
input_interface_shape_complementarity > 0.62
RMSD_binder < 3.73
Step 2 对通过者按 AF3 ipSAE_min 取 Top-K
几条值得记住的实操要点(Fig. 4E–F)
- 形状互补性这个滤镜很值:它作用在输入结构上,无需等复合物折叠完即可应用,在小 K(约 1–20)时尤其能提升平均精度;
- 仅用 ipSAE_min(或再加形状互补性),每个靶点只取 10 个候选,就能为全部 15 个靶点各召回至少 1 个真结合子;
- RMSD_binder 滤镜需谨慎:它有时过于严格——在两个靶点上、所有 K 值下都一个都没召回。它能增强预测力,但可能误杀。
10. 局限性与展望
作者对局限性相当坦诚:
- 数据稀疏:多数靶点的测试设计有限、真结合子常为个位数,限制了模型泛化;
- 标签噪声:各研究的检测方法与“结合”定义异质,引入噪声;
- 亲和力缺失:亲和力数据仅小部分可得,未纳入分析。
展望与呼吁:
- AF3 持续领先,与既往“AF3 在 PPI 预测上更优”的结论一致;但 Boltz-2、Chai-1 等更新模型值得继续评估;
- 该领域真正需要的,是更标准化、公开的“结构 ↔ 亲和力”数据集,以提升预测力并深化对蛋白–蛋白相互作用的理解。
如果说过去两年 de novo 设计解决了“怎么造”,那么“造出来之后该信谁、该挑谁”一直缺一个有规模支撑的答案。这篇覆盖 3,766 个样本的 meta 分析,第一次在足够大的尺度上把这件事讲清楚,并给出了简单、可解释、可复现的落地方案。
对任何还在为“挑哪个 binder”头疼的实验室,这都是一份兼具方法学深度与工程实用性的参考指南。
