游乐游手机版
首页/AI教程/文章详情

清华团队GalaxyVS数秒探索千亿化合物 药物虚拟筛选超大规模

时间:2026-06-08 16:15
GalaxyVS是一套软硬件深度协同的虚拟筛选框架,基于DrugCLIP稠密向量检索范式,将单靶点对千亿级化合物的筛选从数年压缩至数秒。部署在国家超级计算天津中心,首次完成十万级靶点×千亿级化合物系统级筛选,并产出跨物种相互作用数据库GalaxyDB,解决了大规模筛选的硬件、软件与算法挑战。

先把结论放在前面:GalaxyVS 是一套软硬件深度协同的虚拟筛选框架,部署在国家超级计算天津中心。它没有走传统分子对接的老路,而是以 DrugCLIP 的“稠密向量检索”范式为核心,把单靶点对千亿级化合物的筛选,从“数年模拟”压缩到了“数秒检索”,并且首次在十万级靶点×千亿级化合物的规模上完成了系统级筛选,最终产出了一个跨物种的相互作用数据库 GalaxyDB

研究背景:两个空间的“双重鸿沟”

现代药物发现正同时面对靶点空间与化学空间的快速膨胀,但现有的筛选能力显然没跟上。

先说靶点侧的鸿沟。AlphaFold2 已经为大约 1.58 亿个蛋白预测了结构,覆盖了 UniProt 中约 2 亿条目的 78%。问题在于,那些依赖高分辨率实验结构的传统方法,其搜索空间被死死限制在 PDB 中约 7 万个蛋白上。这占了多少?大约 0.035%。换句话说,绝大多数有高治疗价值的靶点,至今仍是“有结构但没被筛过”的空白地带。

再看化学侧的鸿沟。组合化学让商业可及的化合物库膨胀到了数十亿乃至万亿规模,比如 Enamine REAL Space、WuXi GalaXi、ZINC22 这些。但受限于算力,单次筛选的天花板长期徘徊在约 55 亿化合物的量级,千亿级空间几乎无人敢碰。

经典方法为什么吃力?物理模拟,比如自由能微扰(FEP),精度最高但代价太大,根本没法放大到千亿尺度。分子对接(docking)相对经济,可它还是需要对每个蛋白-配体对反复采样和打分,面对千亿候选时依然力不从心。

深度学习带来了转机。以 DrugCLIP 为代表的方法,把虚拟筛选重构为共享隐空间中的最大内积检索,在效率上对物理模拟形成了代差。同时,大规模合成数据上的预训练让模型对结构变得更鲁棒,可以直接使用 AlphaFold2 预测的结构进行筛选。此前已有工作把人类蛋白质组对 5 亿化合物完成了筛选并公开了数据集。

但从 5 亿到 1000 亿,要跨过三道坎。规模扩大 200 倍绝不是简单“堆量”就能解决的。论文明确指出了三层挑战:

  • 硬件层:为 1000 亿分子生成高维稠密向量,所需算力与存储接近 1 PB,远超常规集群的承受能力。
  • 软件层:像 FAISS 这样的内存向量检索引擎,需要把整个索引常驻内存。千亿向量即便经过量化,也需要数百 TB 内存,传统方案在此尺度上代价过高。
  • 算法层:在千亿库里取 Top 候选,相当于只采样了极小一撮,极易出现多样性坍塌,结果被少数几个骨架的类似物占满。而且快速检索范式本身缺乏精细的物理建模,存在精度损失的风险。

GalaxyVS 正是为同时解决这三层挑战而设计的。

\

方法内核:DrugCLIP 的稠密检索范式

GalaxyVS 的理论地基是 DrugCLIP——一个多模态对比学习框架,它打破了筛选“吞吐”与“精度”之间的传统取舍。

双编码器与对比对齐

DrugCLIP 使用两个独立的、基于 Uni-Mol 的 Transformer 编码器,分别处理小分子与蛋白口袋的 3D 原子特征。分子编码器加载了预训练的 Uni-Mol 权重,口袋编码器则在 ProFSA 数据集上通过对比蒸馏与之对齐。两者通过对比学习,把匹配的蛋白-配体对在表征空间中拉近,把不匹配的推远。

为什么这能解锁千亿尺度?

关键在于双编码器是完全解耦的:分子编码与蛋白完全独立。这意味着你可以把整个化合物库离线一次性编码并落盘。每次新的筛选,只需在线编码目标口袋,再计算它与全部预计算分子向量的余弦相似度,然后排序。于是,几何依赖的亲和力估计被改写为高效的向量内积运算——这正是把“在线检索”从“离线准备”中剥离出来的结构性前提。

集成与分数归一化

为了增强对构象变化的鲁棒性,每个分子的最终向量由 6 个交叉验证模型集成得到。多口袋构象下的原始余弦分数,则采用调整后的鲁棒 Z-score 归一化以保证可比性。每个分子的最终分数,取其在所有相关口袋上归一化分数的最大值。

系统架构:三大技术支柱

GalaxyVS 并非现有工具的简单拼接,而是从底层硬件到顶层候选精炼的系统性重构,由三个相互衔接的模块组成。

\

模块一:异构架构上的大规模表征编码

流程上,两个库都以 SMILES 提供,先用 RDKit 为每个分子生成低能量 3D 构象,再送入 DrugCLIP 分子编码器抽取静态向量。落盘后的向量库规模约 200 TB。

硬件适配方面,团队把 DrugCLIP 工作流从 CUDA 迁移到了天河超算的异构翻跟斗上。他们将计算核重写为设备相关算子,并通过统一算子接口注册,在保持 PyTorch 编程模型的同时实现了透明分派。针对 Transformer,他们实现了融合多头注意力算子,把线性投影、矩阵乘、softmax 与 dropout 合并为单个 kernel,减少了启动开销,提升了片上数据复用。

调度与容错方面,设计了节点感知的任务分配策略与失败重提机制,以在长时间编码作业中维持吞吐稳定。

离线成本,也就是一次性沉没成本:构建这套千亿库消耗了 1000 个 CPU 节点×12 天,以及 5000 个异构翻跟斗节点×18 天。这正是 GalaxyVS 吞吐飞跃的关键——把构象生成、向量编码这些重活全部前置为离线一次性投入,在线检索则近乎瞬时。

平台一致性验证:为了确认翻跟斗与原始 GPU(NVIDIA A100 80GB)数值一致,团队抽样了 100 万分子在双平台上编码。结果显示,逐元素差异在小数点后第 4–5 位,均值 6.86×10⁻⁵,最大 5.75×10⁻³。在 744 个构象、53 个口袋组上的排序一致性(Spearman)达到 5–6 位有效数字,Top 1% 差异仅数十个分子,处于实践可接受的范围。

模块二:高通量向量检索(PipeANN + 双模式)

磁盘原生索引(PipeANN):为了避免数百 TB 的内存常驻,团队引入了 PipeANN。它的索引结构与 DiskANN 相同:向量组织为有向图,图索引存盘以大幅压低内存占用,仅把 PQ 压缩向量驻留内存以加速访问。索引遍历采用“偏置最优优先搜索”,反复发起 4KB 随机读直至收敛。

I/O 工程细节:索引文件存放在基于 HDD 的 Lustre 并行文件系统上。为了掩盖随机读的高延迟,PipeANN 用最大 I/O 深度 32 的自适应流水线,重叠计算与磁盘 I/O,并利用多盘并行。这套磁盘原生方案,构成了下文“亲民模式”的基础。

关键配置:每个分区约 100 万向量(共约 10 万个分区);多数分区图最大出度 R=64,连通性弱的“困难分区”提升至 128;构建时候选池 L 默认 100、大 R 时 192,检索时 L=5×top-K;每个 PQ 压缩向量 32 字节,内存-磁盘比 1:128(全集群 <10 TB 内存)。

两种运行模式

\

模式 硬件 任务 性能 成本
Accessible(亲民) 20 个标准节点 / 磁盘检索 单靶点 5.2 小时 ≈ ¥300 / 靶点
Extreme(狂飙) 20,071 个节点 / 内存检索 全蛋白质组 160 口袋 32 秒;日吞吐 1.5×10¹⁶ 大规模算力(图示约 ¥85 万级)

“狂飙模式”把磁盘检索升级为分布式内存检索:将分片预加载进各节点本地内存,使检索摆脱共享存储 I/O 瓶颈。它呈现出明显的亚线性扩展——当并发查询冲到百万级时,单口袋有效延迟低至约 0.014 秒。

模块三:多样性控制与亲和力重排序

检索得到的原始候选先经鲁棒 Z-score 归一化,随后进入“两阶段精炼”,以同时保证化学多样性与排序精度。

(a) 结构感知的分区:在建索引前,用 K-Means + ECFP4 指纹把全库聚成约 1 万个结构家族。因簇大小极不均衡,再均匀细分为约 10 万个大小相近的结构内聚分片(每片约 4–40 百万分子)。

(b) 多样性因子:检索 Top 0.01% 后约得 1000 万分子。直接取全局 Top 会导致扎堆,因此采用两阶段选择:先从每个分区独立取 Top 比例 r,再从并集中选最终 top-k。随着 r 增大,最终被代表的簇数 l 单调上升至 min(k, 10000)。给定目标 k 与期望 l,用二分搜索高效确定最优 r——只需对 1000 万级集合做一次全局排序,分钟级即可完成。

(c) 性质与规则过滤:全库不预过滤(保留灵活性),而是对每个检索子集按需过滤。单靶点 ABFE 评估采用较宽松规则:

性质 取值范围 性质 取值范围
分子量 [150, 550] TPSA [0, 200]
环数 [1, 7] 可旋转键 [0, 12]
H 键供体 [0, 6] 芳香环数 [1, 7]
H 键受体 [0, 12] 最大环尺寸 [3, 8]
ClogP [−3, 5] 异构体数 [1, 8]

同时,排除 PAINS、ZINC 警示结构及多醚酯、双胍、硝基等模式;允许原子类型限定为 {H, C, N, O, F, Cl, Br, I, S, P}。

(d) AlphaRank 重排序:多样化候选随后由 AlphaRank(构建于 AlphaFold3 骨架,以成对排序损失优化)做精细亲和力重排序。与检索阶段粗粒度的语义向量不同,AlphaRank 显式建模口袋-配体的 3D 原子级相互作用与空间构象,把“数学上的近邻”精炼为“生化上严谨的候选”。

实验结果

速度与吞吐:把计算瓶颈“转移”掉

亲民模式以 20 节点、5.2 小时、约 ¥300 完成单靶点千亿筛选。狂飙模式在 20,071 节点上 32 秒完成 160 口袋批量检索,满负荷日吞吐达 1.5×10¹⁶ 次打分——相对于此前 docking 类超算纪录(SWDOCKP2)提升约百万倍。其本质是范式转变:把重活前置为离线沉没成本,在线只剩近乎瞬时的向量运算,从而实现亚线性扩展。

化学多样性

在 102 个 DUD-E 靶点上,与一个聚合自 ChemDiv、ChemBridge、Enamine、Life Chemicals 的代表性“在库”基线(过滤后 2.94M)对比:基线取每靶 Top 30,000(约 1%);千亿库取 Top 0.01% 后经多样性控制保留 30,000 个、覆盖约 8,000 个簇。

\

评估采用 Leader–Follower 聚类(ECFP 1024-bit,阈值 0.85)、Bemis–Murcko 骨架、Morgan 半径-4 原子环境、BRICS 片段四类指标。结果显示,GalaxyVS 命中的分子在独特簇、独特骨架、独特原子环境、独特片段上均显著高于百万级库,有效缓解了常规流程中的结构冗余。

化学新颖性

针对 42 个在两种库中均存在新颖性挑战的靶点,基于 PubChem 把命中分子分为四级新颖度:高(未收录且 <5 类似物)、中(已收录且 <5,或未收录且 ≥5)、低(已收录且 ≥5)、最低(专利覆盖)。

\

对比鲜明:传统在库筛选产出大量“低/最低新颖度”分子,集中在拥挤且可能受专利约束的区域。而 GalaxyVS 即使面对最难靶点,命中也主要落在中等新颖度区间——更可能是尚未报道、仅与已知分子部分子结构相似的全新结构。

预测亲和力:打分 + 自由能双重验证

Boltz-2 打分:对每靶用簇代表选取至多 60 个化合物。千亿库的 Boltz-2 分数分布明显向更强亲和力偏移,整体胜率 80.4%。

\

蛋白类别 胜率 样本数 蛋白类别 胜率 样本数
离子通道 100.0% 2 其他酶 83.3% 36
P450 100.0% 2 激酶 76.9% 26
蛋白酶 93.3% 15 核受体 72.7% 11
杂项 80.0% 5 GPCR 40.0% 5

酶类与核受体普遍 >70%。GPCR 仅 40% 是唯一明显偏低项——这与 GPCR 高度构象柔性、静态打分函数难以区分真实结合者与背景噪声的已知难点一致(且 n=5 样本偏小)。

ABFEP 自由能验证:以 BRD4 为靶,用 BAT.py 对 Top 10 分子做绝对结合自由能微扰:平均 ΔG = −6.25 kcal/mol、标准差 1.57,平均统计误差 1.12,收敛良好。其中 GVS-001 ΔG = −8.97 ± 0.89、GVS-002 ΔG = −8.03 ± 0.85 kcal/mol;二者采取经典结合模式,与 ASP381、关键锚定残基 ASN433 及保守水分子形成稳定相互作用网络。

\

与 docking 选择的对比:按 docking 分数选的候选能找到更低的表观能量极小(如 Compound 16 ΔG = −10.97),但波动更大——Compounds 11、13 出现弱结合(ΔG ≥ −3.00)且标准差高达 2.98,提示在显式溶剂中结构不稳、部分脱离口袋。相比之下,GalaxyVS 更倾向热力学一致、收敛良好的分子。

检索精度与极端富集

PipeANN 精度:检索时 top-K=100、L=500,随机抽三个索引对照穷举基线,平均召回 97.67%(98/97/98)。论文认为,早期筛选阶段 <5% 的遗漏可以接受,因为初筛只是粗滤,后续还有结构方法精算。

极端富集:在 0.01% 的极窄检索深度下,GalaxyVS 于 DUD-E 取得 EF₀.₀₁% = 1594.3,LIT-PCBA 取得 297.6,表明其在超大背景与极窄保留比下仍保有强富集力。

跨物种筛选与 GalaxyDB

凭借高吞吐与对 AlphaFold 结构的适配,团队把筛选从单靶点扩展到了整个蛋白质组,选取了 6 个跨演化分支的代表性物种,结构数据取自 AlphaFold 数据库:

物种 类型 结构数
人类(Homo sapiens) 哺乳动物 23,586
小鼠(Mus musculus) 哺乳动物 21,452
拟南芥(Arabidopsis thaliana) 植物 27,402
果蝇(Drosophila melanogaster) 昆虫 13,461
酿酒酵母(S. cerevisiae) 真菌 6,055
大肠杆菌(E. coli) 原核 4,370
合计 96,326

筛选规模:经口袋识别与结构过滤后,筛选空间约 400 万个结合构象、来自约 10 万个蛋白靶点。整场战役在 20,071 节点上 16 小时内完成,累计 4.0×10¹⁷ 次口袋-配体打分,单口袋有效延迟约 0.01 秒。

GalaxyDB 构建:经 elbow 分析在 102 DUD-E 靶点上确定目标多样性约 7,000 簇。每个百万级富集子集在 z-score < −4 约束下保留 30,000 分子并最大化簇覆盖,再以 Leader–Follower 聚类取代表。随后用 AutoDock Vina v1.2.5 做集成对接:仅人类数据集即覆盖 26,562 个口袋、187,715 个口袋构象,每个口袋约 200 个候选配体、exhaustiveness=16,保留最优 pose 用于建库。

这份跨物种相互作用全景图将开放释出,可支撑人类疾病治疗、抗菌发现、农药/除草剂开发等多个方向。

化合物库与评测基准

两大库合计约 94.00B,也就是常说的“1000 亿级”:

  • Enamine REAL Space(约 64.86B):源自 181,288 个合格砌块、172 套合成方案,所有分子 ≤3 步可合成,成功率 >80%、交付 3–4 周(采用 2024 年 7 月版)。
  • WuXi GalaXi(29.13B):整合 >30 种可并行反应与药明的砌块/骨架库,约束 ≤3 步、可行性 60–80%、交付 4–8 周(采用 2025 年 1 月版)。

与既有大规模筛选平台的对比:

基准:DUD-E(102 靶,平均 224 活性 + 约 62 倍诱饵)评估跨家族富集;LIT-PCBA(14 靶、7,761 活性、382,674 实测非活性)以实验数据替代诱饵,更贴近真实但活性比例差异大。

亮点、局限与展望

主要贡献

  1. 范式落地的工程闭环:不止提出方法,而是从底层算子、磁盘原生索引到候选精炼做了完整的系统级工程,并在国家级超算上真实跑通。
  2. 可及性与极致吞吐双模式:¥300/靶的亲民模式让千亿筛选“平民化”,狂飙模式则支撑全蛋白质组级扫描。
  3. 质量未被速度牺牲:多样性、新颖性、预测亲和力三方面均较百万级库有可量化提升,并用 ABFEP 做了物理验证。
  4. 开放数据资产:GalaxyDB 作为跨物种相互作用图谱开放释出,具备社区价值。

局限与需审慎之处

  • 尚未经同行评议,且全部验证为 in silico(Boltz-2、AlphaRank、ABFEP),缺乏湿实验确证——论文亦将其列为未来工作。
  • 评估模型的同源性:Boltz-2 与 AlphaRank 同以 AlphaFold3 为骨架,用一族相关模型做“重排序”与“评估”可能存在一定循环性,理想情况下需独立实验背书。
  • GPCR 等柔性靶点偏弱(胜率 40%),静态打分对高构象柔性靶点的固有短板依然存在。
  • “百万倍”是吞吐口径的跨范式比较,并非同口径逐步提速。
  • 检索为近似:PipeANN ~97.67% 召回意味着约 2–3% 的真实近邻被漏掉。作为初筛可以接受,但属于需要知晓的取舍。
  • “1000 亿”实为约 940 亿,且为两库的枚举子集而非全空间;DUD-E 诱饵为计算生成,未必反映真实库分布。
  • “亲民”主要指亲民模式;跨物种战役本身依赖 2 万节点的大规模算力,并非低成本。

展望

随着 AlphaFold 结构覆盖与可及化学库继续扩张,“检索式”筛选有望成为常态化的一线工具。后续如果能补上系统性湿实验验证,并将 GalaxyDB 与下游优化、ADMET、可成药性评估打通,其对真实管线的价值将更为可观。

来源:https://cloud.tencent.com.cn/developer/article/2684321
上一篇工业机器人机械臂末端坐标系表达方式详解 下一篇认识LangChain框架状态机思维 智能体教程第十六篇中
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Kimi App手机电脑联动下载安装及浏览器兼容教程
AI教程 · 2026-06-09

Kimi App手机电脑联动下载安装及浏览器兼容教程

本文介绍了Kimi智能助手从手机端到电脑端的下载与安装方法,重点阐述了不同平台(包括iOS、Android、Windows、macOS)的获取途径。同时,详细说明了如何通过浏览器直接访问网页版,并针对主流浏览器的兼容性进行了分析,旨在帮助用户根据自身设备选择最便捷、稳定的使用方式。

HeyGen稳定安装步骤:先配置创意团队环境再注册开通
AI教程 · 2026-06-09

HeyGen稳定安装步骤:先配置创意团队环境再注册开通

HeyGen的稳定安装与高效使用,关键在于前期团队环境的统一规划与后期账号流程的顺畅完成。团队需明确设计规范、素材管理及权限分工,为工具运行打下基础。随后,通过官方渠道完成注册、验证及订阅开通,确保服务稳定。最后进行基础功能测试与团队培训,即可快速投入实际创作流程。

Mochi 1从零搭建本地服务与工作流导入指南
AI教程 · 2026-06-09

Mochi 1从零搭建本地服务与工作流导入指南

本文介绍了在成功完成Mochi1本地服务的基础搭建后,如何继续处理工作流导入这一关键后续步骤。内容涵盖工作流文件准备、导入操作的具体流程、常见问题的排查与解决,以及导入后的配置优化与测试验证,旨在帮助用户将预设的自动化流程顺利集成到本地环境中,确保工具发挥完整效能。

InvokeAI Linux用户安装配置与节点处理指南
AI教程 · 2026-06-09

InvokeAI Linux用户安装配置与节点处理指南

本文详细介绍了在Linux系统上安装和配置InvokeAI的完整流程。内容涵盖从环境准备、依赖安装到模型下载与加载的关键步骤,并重点解析了核心组件“处理节点”的安装与使用方法。指南旨在帮助用户顺利完成部署,并理解其工作流程,以便更好地利用这一AI图像生成工具进行创作。

Dify保姆级部署指南:服务安装与模型接入下载
AI教程 · 2026-06-09

Dify保姆级部署指南:服务安装与模型接入下载

本文详细介绍了开源AI应用开发平台Dify的部署流程。内容涵盖从服务器环境准备、Docker安装、Dify核心服务启动,到如何接入OpenAI、Azure等云端大模型API,以及如何配置Ollama等本地模型。最后,还提供了使用ModelScope社区下载特定模型文件并集成到本地环境中的具体操作方法,旨在帮助用户快速搭建属于自己的AI应用开发与测试平台。