游乐游手机版
首页/AI教程/文章详情

AFsample2T突破AlphaFold2静态构象提升GPCR虚拟筛选

时间:2026-06-04 19:22
先说几个核心判断:AlphaFold2确是一场变革,但其应用边界同样清晰。在基于结构的药物设计(SBDD)中,AF2输出的是单一最优静态结构,构象多样性方面存在天然缺陷。对于GPCR这类具有高度构象动态性的重要药物靶标,这一问题尤为突出。近期一项名为AFsample2T的研究提出了一种富有启发性的解

先说几个核心判断:AlphaFold2确是一场变革,但其应用边界同样清晰。在基于结构的药物设计(SBDD)中,AF2输出的是单一最优静态结构,构象多样性方面存在天然缺陷。对于GPCR这类具有高度构象动态性的重要药物靶标,这一问题尤为突出。近期一项名为AFsample2T的研究提出了一种富有启发性的解决方案——在不修改AF2网络架构的前提下,通过在MSA输入层面施加局部"遮蔽",精准释放结合口袋区域的进化约束,从而生成更具多样性的构象集成。

研究背景

AF2的里程碑意义与内在局限

AlphaFold2在CASP14上的表现毋庸置疑——它以近乎碾压的方式超越了所有传统方法。然而,当将其真正应用于基于结构的药物设计时,问题逐渐显现:AF2的训练目标决定了它只会输出那个"最正确"的静态结构。其Evoformer模块通过行向与列向注意力机制,从多序列比对(MSA)中充分挖掘共进化信号,然后将这些信号牢牢"锁定"在预测结构中。结果呢?构象多样性几乎为零。

具体数字很有说服力:结合口袋侧链的RMSF中位值仅为0.15Å,而实验结构集合的RMSF高达0.58Å;骨架RMSF中位值为0.10Å,实验结构则是0.30Å。更直观的是,AF2生成的口袋普遍偏"塌陷"、偏小,平均体积约209ų,而实验结构的均值约为256ų。这就好比用一张照片去捕捉一段舞蹈——定格固然清晰,但动态信息全都丢失了。

GPCR:最重要也最棘手的药物靶标

G蛋白偶联受体(GPCR)是人类最大的膜蛋白超家族,约三分之一的上市药物以其为靶点。但GPCR的结构特征决定了它对构象采样极其敏感:正构结合位点位于跨膜螺旋TM1-7的胞外侧,由于内源性配体包括肽类、小分子、脂质等,口袋形态高度多样;受体本身存在激活态与非激活态两大功能构象,TM6的向外位移是关键标志;再加上胞外环2(EL2)在不同配体复合物中的构象异质性——这种天然的构象多样性,AF2的默认策略根本难以捕捉。多项回顾性评估已明确指出,AF2模型在GPCR虚拟筛选中的表现系统性差于实验结构,根源就在于结合口袋的精细描述不足。


方法设计:AFsample2T的核心策略

MSA列蒙版的原理

所谓MSA列蒙版,逻辑其实很直观:通过随机遮蔽MSA中特定位置的列,削减Evoformer可获取的共进化信息量,让AF2在结构推断时"不得不"走出原有的舒适区,探索偏离进化约束的构象空间,进而产生更高的结构多样性。已有工作(AFsample2,Kalakoti & Wallner, Commun. Biol. 2025)表明,对全MSA施加15%蒙版可增加整体构象多样性,而本篇工作的创新在于将蒙版精确靶向至结合口袋区域。

\

AFsample2T的靶向设计

蒙版区域定义(针对class A GPCR通用):

区域具体范围作用
胞外TM区TM螺旋胞外侧,延伸至PIF保守微开关(P5×50, I3×40, F6×44)以上一个螺旋圈覆盖正构口袋的主体
EL2区保守半胱氨酸至TM5之间的EL2片段捕获环区构象异质性

蒙版概率梯度测试了0%(仅dropout)、10%、20%、30%、50%五档。

集成策略与激活/非激活态建模

AFsample2T的集成组成如下:每个受体生成1,000个模型,其中0%蒙版加dropout 250个(激活态和非激活态各125个),10%蒙版加dropout 250个,20%蒙版加dropout 250个,30%蒙版加dropout 250个。

两大功能构象的建模也颇具匠心——非激活态仅输入受体序列(AF2 monomer),激活态则输入受体序列加上异三聚体G蛋白(Gα/β/γ)序列(AF2-Multimer),通过G蛋白的胞内结合来引导TM6向外位移。验证表明,这套策略可以可靠地区分TM6的特征性构象,与Chiesa et al. 2025的结果一致。


实验设计与评估体系

结构精度评估(10个class A GPCR)

基准数据集涵盖了10个GPCR受体,包括5-HT₁A、A₂A、D₁、D₂、H₁、M₄、MT₁、μ-阿片受体、TAAR1等,共119个实验结构,内源性配体类型从单胺、嘌呤核苷到内源性肽,相当多样化。排除低分辨率结构、重复配体复合物和结合位点突变体后,保留了61个结构用于精度基准测试。

评估指标方面,以结合位点残基(配体周围5Å内)的对称感知侧链RMSD为核心指标,计算不同RMSD阈值(1.0-2.0Å)下实验结构被捕获的比例曲线并用AUC量化;同时使用pLDDT和PAE评估模型置信度,使用MDTraj计算RMSF评估集成构象多样性,使用Schrödinger SiteMap计算口袋体积。

虚拟筛选评估

分子对接工具选用DOCK3.8,基于物理评分函数,包含vdW、静电、配体去溶剂化项。配体集构建方面,活性化合物从ChEMBL v33获取(pKᵢ/pKd/pIC₅₀/pEC₅₀ ≥ 6.0),经标准化和聚类后,每受体保留52-202个配体;诱饵分子从ZINC20按性质匹配生成,每受体2,580-10,375个。整体评估规模相当庞大——对10个GPCR的所有模型(AF2加AFsample2T各1,000个)及119个实验结构进行对接,累计预测打分超过240万亿个复合物构象。评估指标包括LogAUC / aLogAUC(ROC曲线半对数面积)和EF1%(ROC曲线在1%假阳性率处的早期富集因子),分析维度覆盖集成的中位值和top 1%最大值。


核心结果

构象精度:全面优于默认AF2

结合位点RMSD-AUC的汇总数据相当有说服力:默认AF2的AUC为0.54,仅添加dropout(0%蒙版)就能提升到0.57;10%和20%靶向蒙版均达到0.61,相对AF2提升约13%;30%蒙版为0.59,小幅下降;50%蒙版则降至0.43,骨架已被破坏。值得注意的是,全局15%蒙版的AFsample2反而只有0.38,低于AF2基线。而AFsample2T集成(0-30%蒙版)表现最优,AUC达0.63,相对AF2提升17%。在RMSD ≤1.5Å阈值下,AFsample2T集成捕获了73.8%的实验结合位点构象,AF2仅为60.7%,提升22%。

\

构象多样性:接近实验水平

RMSF对比数据更直观地展示了改进幅度。侧链RMSF:AF2仅0.15Å,AFsample2T提升至0.45Å,实验结构为0.58Å;骨架RMSF:AF2为0.10Å,AFsample2T为0.28Å,实验结构为0.30Å——AFsample2T的骨架RMSF中位值已非常接近实验结构,说明它采样到的是口袋骨架的物理运动范围,而不只是侧链旋转体的变化。均值口袋体积:AF2为209ų,AFsample2T为218ų,实验结构为256ų;但top 1%口袋体积方面,AFsample2T能达到389ų,远高于AF2的272ų。

\

以TAAR1为例,EL2构象异质性的对比更为直观:AF2生成的所有13个模型EL2构象几乎完全重叠,而AFsample2T的13个随机抽样模型则展现出与13个实验结构相当的构象多样性。这一趋势在其余9个GPCR中均得到验证。μ-阿片受体的情况更为典型——AF2生成的口袋偏塌陷,AFsample2T集成中的口袋体积分布与实验结构更为一致,这也是AFsample2T在RMSD阈值1.15-1.30Å区间表现突出跳升的原因。

\

虚拟筛选:配体引导选模型可媲美实验结构

先看中位性能——不使用配体引导、随机选模型的情况下:实验结构的aLogAUC中位值为11.2,EF1%中位值为4.1;而AF2和AFsample2T的aLogAUC中位值分别仅4.4和4.2,EF1%中位值均为1.6。这个结果其实不令人意外,它与已有评估(Díaz-Rovira et al. 2023, Zhang et al. 2023)一致——没有配体引导时,实验结构的优势仍然显著。

\

但转到top 1%性能(配体引导选模型)后,情况发生了质的变化。实验结构最优的aLogAUC为19.6,AF2 top 1%为10.8,而AFsample2T top 1%达到了12.9;EF1%方面,实验结构最优为11.3,AF2为7.5,AFsample2T为9.6。更具体的受体层面来看,TAAR1受体上AFsample2T top 1%的aLogAUC达到了32.0,甚至超过了实验结构最优的27.8;μ-阿片受体上AFsample2T为16.2,实验最优为15.2。在七个受体中(5-HT₁A、D₁、D₂、H₁、M₄、MT₁、TAAR1),AFsample2T的中位富集度也优于AF2。

\

那么,什么样的蒙版概率最有效?分析top 1%模型的来源发现,20%蒙版贡献了44%,10%蒙版贡献26%,30%蒙版贡献16%,0%蒙版仅贡献14%。不同蒙版概率的互补贡献恰恰验证了集成策略的合理性——20%蒙版最多,但其他档位同样不可或缺。

\

模型数量分析

在计算成本方面有一个重要发现:分析10、100、250、500、1,000个模型的结果表明,生成100-250个模型即可获得接近1,000个模型水平的最大富集度。这对于实际应用的计算资源分配有直接的指导意义。


讨论:方法定位与适用边界

与相关方法的比较

方法原理优势局限
AFsample2T(本文)局部MSA列蒙版构象多样性与模型置信度平衡;靶向效率高依赖构象选择模型;不适用于强诱导契合
全局MSA蒙版(AFsample2)全MSA蒙版适合捕获大构象变化(激活/非激活态)破坏整体折叠精度,口袋精度反而更低
MSA浅采样(SPEACH_AF等)减少MSA行数适合探索替代构象状态同样侧重大范围构象变化
MD精修物理力场模拟基于物理原理,可采样连续轨迹膜蛋白系统计算代价极高;预测结构起点质量影响大
AlphaFold3 / Boltz-2配体-受体共折叠直接预测复合物构象结合位点建模精度尚待系统评估;依赖训练数据中相似配体
诱导契合对接(IFD)对接中允许受体灵活针对特定配体的口袋适应依赖单配体;不适用于scaffold-agnostic虚筛

方法局限性

话说回来,AFsample2T也有它的适用边界。首先,诱导契合场景受限——该方法基于构象预选模型,如果某个配体结合引发显著的诱导契合效应,预生成的集成可能无法覆盖相应构象。其次,AF2训练数据存在偏差,10个基准受体中有4个结构包含在AF2训练集中,模型对未知结构受体的泛化性能可能偏低。第三,无配体场景表现有限——中位富集度仍显著低于实验结构,对于完全无配体信息的孤儿受体,虚筛结果可靠性存疑。第四,受体构象能量估计未纳入,集成对接目前没有对不同构象进行能量权重校正。最后,这是GPCR特化设计,蒙版区域基于GPCR的保守拓扑定义,应用至其他靶标类别需要重新定义靶向区域。

方法延伸与展望

展望方面,有几个方向值得关注:将靶向蒙版指向GPCR变构口袋,有望生成适用于变构虚筛的构象集成;作者明确指出方法可迁移至激酶等具有保守折叠的靶标家族,源代码已开源;未来可将AFsample2T与AF2中的模板偏向策略结合,进一步提升特定功能构象的建模精度;随着AF3和Boltz-2等配体-受体共折叠方法的成熟,与AFsample2T的系统性对比将是重要研究方向。


实操指南:如何将AFsample2T用于GPCR虚筛

推荐工作流程(四步)

对于实际应用者,这里提供一个四步工作流程:第一步,生成AFsample2T集成——确定目标受体的激活/非激活态,定义靶向蒙版区域(胞外TM加EL2,参照GPCRdb编号),四档蒙版概率(0/10/20/30%)各生成至少62个模型,推荐集成规模不低于250个(计算资源充足时建议1,000个)。第二步,对接已知配体与诱饵分子——活性化合物至少10个已知配体(聚类后),诱饵分子每活性分子匹配至少50个(ZINC来源),对接工具推荐DOCK3.8或同类物理评分工具。第三步,配体引导模型筛选——计算每个模型的aLogAUC和EF1%,选取top 1%高富集模型(约10个模型/1,000集成),人工检查验证关键相互作用是否合理。第四步,使用1-3个top模型对目标化合物库进行全面对接。

\

决策树:实验结构 vs. AFsample2T

简单来说:如果存在受体实验结构,优先看是否有多个配体-受体复合物结构——有的话优先使用实验结构(通常一个结构即可达到top AFsample2T水平);如果只有一个或无配体结构,要看该结构的富集度是否良好,良好则使用实验结构,否则考虑用AFsample2T补充。如果没有任何实验结构,则使用AFsample2T加配体引导筛选——但注意,如果连已知配体都没有,那就是高风险场景,结果可靠性存疑。


回到问题的本质。这篇工作的核心贡献在于识别并缓解了AF2用于药物发现时的具体瓶颈——不是笼统地"增加采样多样性",而是有针对性地在结合口袋区域释放进化约束,并通过严格的回顾性虚拟筛选评估验证了方法的实用性。方法的优雅之处在于其极简的设计逻辑:仅需修改MSA输入(局部蒙版),无需改变AF2网络架构,无需额外训练,即可在结构质量与构象多样性之间实现有效的工程化权衡。

对药物发现社区的实践意义可以概括为四点:为无实验结构或实验结构质量有限的GPCR提供了可行的虚筛策略;证明了"集成加配体引导筛选"的范式可将AF2模型的虚筛性能提升至接近实验结构水平;提供了可直接复用的开源工具和方法学指南;方法可扩展至其他靶标类别,具有广泛适用性。

当然,局限性也需要时刻谨记:方法效果高度依赖配体引导的模型筛选——在无已知配体的场景中,AFsample2T的优势尚未被充分验证,仍需谨慎解读中位富集度数据。此外,方法与新兴共折叠工具(AF3、Boltz-2)的系统比较将是判断未来技术路线选择的关键。

来源:https://cloud.tencent.com.cn/developer/article/2682309
上一篇自然计算科学:开放材料2024无机材料数据集与基础模型 下一篇Claude Code实战指南:重新定义AI编程开发
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程
AI教程 · 2026-06-04

手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程

前言:百万亿Token免费额度领取指南 近期,小米MiMo大模型推出了重磅福利——百万亿Token的免费额度,申请流程极为简便,额度也十分充足,并且支持直接接入Claude Code等主流工具。本文将完整演示从注册申请、获取API密钥,到最终在Claude Code中完成配置的全流程,跟着操作即可轻

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版
AI教程 · 2026-06-04

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版

Sentinel-3B OLCI Level-3 Global Mapped Earth-observation Reduced Resolution (ERR) Chlorophyll (CHL) Data, version 2022 0 叶绿素a浓度全球网格化数据集简介 叶绿素a浓度是衡量海洋浮

我每月省千元组建一支全天候云端AI团队
AI教程 · 2026-06-04

我每月省千元组建一支全天候云端AI团队

先说个有意思的现象。 前两天,我的视频生成团队“入职腾讯”了。在WorkBuddy专家团里,不少伙伴已经开始用这个工具做短视频。本来以为这事儿就这么定了,结果这两天,反而开始疯狂返工——我发现它只能生成文字驱动的视频,还不能像真正的视频团队那样,把配图的活儿也给干了。 于是,继续优化。 先给你看个好

如何编写合格的AI工作流指令:提升编辑技能
AI教程 · 2026-06-04

如何编写合格的AI工作流指令:提升编辑技能

如何编写一个合格的 Skill:AI 工作流核心指令集指南 在 AI 工作流的实际应用中,Skill(技能指令)常常被误解。许多人将其与普通提示词(Prompt)混淆,导致写出的指令过于宽泛或模糊,AI 难以精准执行。实际上,Skill 的本质是一套结构化的行为指令集,它引导 AI 助手在特定场景下

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界
AI教程 · 2026-06-04

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界

最近几天我会逐步公开自己策划的系统化 AI 编程入门课程大纲,欢迎各位提出宝贵建议。 这套课程暂定 4+1 节:4 节主课以 TRAE 为载体,带领大家零基础入门 AI 编程;外加 1 节扩展课,专门为非技术背景的学员补充软件工程基础知识。具体安排如下: 第一节:TRAE AI 编程入门——Vibe