清华团队GalaxyVS数秒探索千亿化合物药物虚拟筛选超大规模

时间：2026-06-08 16:15

GalaxyVS是一套软硬件深度协同的虚拟筛选框架，基于DrugCLIP稠密向量检索范式，将单靶点对千亿级化合物的筛选从数年压缩至数秒。部署在国家超级计算天津中心，首次完成十万级靶点×千亿级化合物系统级筛选，并产出跨物种相互作用数据库GalaxyDB，解决了大规模筛选的硬件、软件与算法挑战。

先把结论放在前面：GalaxyVS 是一套软硬件深度协同的虚拟筛选框架，部署在国家超级计算天津中心。它没有走传统分子对接的老路，而是以 DrugCLIP 的“稠密向量检索”范式为核心，把单靶点对千亿级化合物的筛选，从“数年模拟”压缩到了“数秒检索”，并且首次在十万级靶点×千亿级化合物的规模上完成了系统级筛选，最终产出了一个跨物种的相互作用数据库 GalaxyDB。

研究背景：两个空间的“双重鸿沟”

现代药物发现正同时面对靶点空间与化学空间的快速膨胀，但现有的筛选能力显然没跟上。

先说靶点侧的鸿沟。AlphaFold2 已经为大约 1.58 亿个蛋白预测了结构，覆盖了 UniProt 中约 2 亿条目的 78%。问题在于，那些依赖高分辨率实验结构的传统方法，其搜索空间被死死限制在 PDB 中约 7 万个蛋白上。这占了多少？大约 0.035%。换句话说，绝大多数有高治疗价值的靶点，至今仍是“有结构但没被筛过”的空白地带。

再看化学侧的鸿沟。组合化学让商业可及的化合物库膨胀到了数十亿乃至万亿规模，比如 Enamine REAL Space、WuXi GalaXi、ZINC22 这些。但受限于算力，单次筛选的天花板长期徘徊在约 55 亿化合物的量级，千亿级空间几乎无人敢碰。

经典方法为什么吃力？物理模拟，比如自由能微扰（FEP），精度最高但代价太大，根本没法放大到千亿尺度。分子对接（docking）相对经济，可它还是需要对每个蛋白-配体对反复采样和打分，面对千亿候选时依然力不从心。

深度学习带来了转机。以 DrugCLIP 为代表的方法，把虚拟筛选重构为共享隐空间中的最大内积检索，在效率上对物理模拟形成了代差。同时，大规模合成数据上的预训练让模型对结构变得更鲁棒，可以直接使用 AlphaFold2 预测的结构进行筛选。此前已有工作把人类蛋白质组对 5 亿化合物完成了筛选并公开了数据集。

但从 5 亿到 1000 亿，要跨过三道坎。规模扩大 200 倍绝不是简单“堆量”就能解决的。论文明确指出了三层挑战：

硬件层：为 1000 亿分子生成高维稠密向量，所需算力与存储接近 1 PB，远超常规集群的承受能力。
软件层：像 FAISS 这样的内存向量检索引擎，需要把整个索引常驻内存。千亿向量即便经过量化，也需要数百 TB 内存，传统方案在此尺度上代价过高。
算法层：在千亿库里取 Top 候选，相当于只采样了极小一撮，极易出现多样性坍塌，结果被少数几个骨架的类似物占满。而且快速检索范式本身缺乏精细的物理建模，存在精度损失的风险。

GalaxyVS 正是为同时解决这三层挑战而设计的。

方法内核：DrugCLIP 的稠密检索范式

GalaxyVS 的理论地基是 DrugCLIP——一个多模态对比学习框架，它打破了筛选“吞吐”与“精度”之间的传统取舍。

双编码器与对比对齐

DrugCLIP 使用两个独立的、基于 Uni-Mol 的 Transformer 编码器，分别处理小分子与蛋白口袋的 3D 原子特征。分子编码器加载了预训练的 Uni-Mol 权重，口袋编码器则在 ProFSA 数据集上通过对比蒸馏与之对齐。两者通过对比学习，把匹配的蛋白-配体对在表征空间中拉近，把不匹配的推远。

为什么这能解锁千亿尺度？

关键在于双编码器是完全解耦的：分子编码与蛋白完全独立。这意味着你可以把整个化合物库离线一次性编码并落盘。每次新的筛选，只需在线编码目标口袋，再计算它与全部预计算分子向量的余弦相似度，然后排序。于是，几何依赖的亲和力估计被改写为高效的向量内积运算——这正是把“在线检索”从“离线准备”中剥离出来的结构性前提。

集成与分数归一化

为了增强对构象变化的鲁棒性，每个分子的最终向量由 6 个交叉验证模型集成得到。多口袋构象下的原始余弦分数，则采用调整后的鲁棒 Z-score 归一化以保证可比性。每个分子的最终分数，取其在所有相关口袋上归一化分数的最大值。

系统架构：三大技术支柱

GalaxyVS 并非现有工具的简单拼接，而是从底层硬件到顶层候选精炼的系统性重构，由三个相互衔接的模块组成。

模块一：异构架构上的大规模表征编码

流程上，两个库都以 SMILES 提供，先用 RDKit 为每个分子生成低能量 3D 构象，再送入 DrugCLIP 分子编码器抽取静态向量。落盘后的向量库规模约 200 TB。

硬件适配方面，团队把 DrugCLIP 工作流从 CUDA 迁移到了天河超算的异构翻跟斗上。他们将计算核重写为设备相关算子，并通过统一算子接口注册，在保持 PyTorch 编程模型的同时实现了透明分派。针对 Transformer，他们实现了融合多头注意力算子，把线性投影、矩阵乘、softmax 与 dropout 合并为单个 kernel，减少了启动开销，提升了片上数据复用。

调度与容错方面，设计了节点感知的任务分配策略与失败重提机制，以在长时间编码作业中维持吞吐稳定。

离线成本，也就是一次性沉没成本：构建这套千亿库消耗了 1000 个 CPU 节点×12 天，以及 5000 个异构翻跟斗节点×18 天。这正是 GalaxyVS 吞吐飞跃的关键——把构象生成、向量编码这些重活全部前置为离线一次性投入，在线检索则近乎瞬时。

平台一致性验证：为了确认翻跟斗与原始 GPU（NVIDIA A100 80GB）数值一致，团队抽样了 100 万分子在双平台上编码。结果显示，逐元素差异在小数点后第 4–5 位，均值 6.86×10⁻⁵，最大 5.75×10⁻³。在 744 个构象、53 个口袋组上的排序一致性（Spearman）达到 5–6 位有效数字，Top 1% 差异仅数十个分子，处于实践可接受的范围。

模块二：高通量向量检索（PipeANN + 双模式）

磁盘原生索引（PipeANN）：为了避免数百 TB 的内存常驻，团队引入了 PipeANN。它的索引结构与 DiskANN 相同：向量组织为有向图，图索引存盘以大幅压低内存占用，仅把 PQ 压缩向量驻留内存以加速访问。索引遍历采用“偏置最优优先搜索”，反复发起 4KB 随机读直至收敛。

I/O 工程细节：索引文件存放在基于 HDD 的 Lustre 并行文件系统上。为了掩盖随机读的高延迟，PipeANN 用最大 I/O 深度 32 的自适应流水线，重叠计算与磁盘 I/O，并利用多盘并行。这套磁盘原生方案，构成了下文“亲民模式”的基础。

关键配置：每个分区约 100 万向量（共约 10 万个分区）；多数分区图最大出度 R=64，连通性弱的“困难分区”提升至 128；构建时候选池 L 默认 100、大 R 时 192，检索时 L=5×top-K；每个 PQ 压缩向量 32 字节，内存-磁盘比 1:128（全集群 <10 TB 内存）。

两种运行模式：

模式	硬件	任务	性能	成本
Accessible（亲民）	20 个标准节点 / 磁盘检索	单靶点	5.2 小时	≈ ¥300 / 靶点
Extreme（狂飙）	20,071 个节点 / 内存检索	全蛋白质组	160 口袋 32 秒；日吞吐 1.5×10¹⁶	大规模算力（图示约 ¥85 万级）

“狂飙模式”把磁盘检索升级为分布式内存检索：将分片预加载进各节点本地内存，使检索摆脱共享存储 I/O 瓶颈。它呈现出明显的亚线性扩展——当并发查询冲到百万级时，单口袋有效延迟低至约 0.014 秒。

模块三：多样性控制与亲和力重排序

检索得到的原始候选先经鲁棒 Z-score 归一化，随后进入“两阶段精炼”，以同时保证化学多样性与排序精度。

(a) 结构感知的分区：在建索引前，用 K-Means + ECFP4 指纹把全库聚成约 1 万个结构家族。因簇大小极不均衡，再均匀细分为约 10 万个大小相近的结构内聚分片（每片约 4–40 百万分子）。

(b) 多样性因子：检索 Top 0.01% 后约得 1000 万分子。直接取全局 Top 会导致扎堆，因此采用两阶段选择：先从每个分区独立取 Top 比例 r，再从并集中选最终 top-k。随着 r 增大，最终被代表的簇数 l 单调上升至 min(k, 10000)。给定目标 k 与期望 l，用二分搜索高效确定最优 r——只需对 1000 万级集合做一次全局排序，分钟级即可完成。

(c) 性质与规则过滤：全库不预过滤（保留灵活性），而是对每个检索子集按需过滤。单靶点 ABFE 评估采用较宽松规则：

性质	取值范围	性质	取值范围
分子量	[150, 550]	TPSA	[0, 200]
环数	[1, 7]	可旋转键	[0, 12]
H 键供体	[0, 6]	芳香环数	[1, 7]
H 键受体	[0, 12]	最大环尺寸	[3, 8]
ClogP	[−3, 5]	异构体数	[1, 8]

同时，排除 PAINS、ZINC 警示结构及多醚酯、双胍、硝基等模式；允许原子类型限定为 {H, C, N, O, F, Cl, Br, I, S, P}。

(d) AlphaRank 重排序：多样化候选随后由 AlphaRank（构建于 AlphaFold3 骨架，以成对排序损失优化）做精细亲和力重排序。与检索阶段粗粒度的语义向量不同，AlphaRank 显式建模口袋-配体的 3D 原子级相互作用与空间构象，把“数学上的近邻”精炼为“生化上严谨的候选”。

实验结果

速度与吞吐：把计算瓶颈“转移”掉

亲民模式以 20 节点、5.2 小时、约 ¥300 完成单靶点千亿筛选。狂飙模式在 20,071 节点上 32 秒完成 160 口袋批量检索，满负荷日吞吐达 1.5×10¹⁶ 次打分——相对于此前 docking 类超算纪录（SWDOCKP2）提升约百万倍。其本质是范式转变：把重活前置为离线沉没成本，在线只剩近乎瞬时的向量运算，从而实现亚线性扩展。

化学多样性

在 102 个 DUD-E 靶点上，与一个聚合自 ChemDiv、ChemBridge、Enamine、Life Chemicals 的代表性“在库”基线（过滤后 2.94M）对比：基线取每靶 Top 30,000（约 1%）；千亿库取 Top 0.01% 后经多样性控制保留 30,000 个、覆盖约 8,000 个簇。

评估采用 Leader–Follower 聚类（ECFP 1024-bit，阈值 0.85）、Bemis–Murcko 骨架、Morgan 半径-4 原子环境、BRICS 片段四类指标。结果显示，GalaxyVS 命中的分子在独特簇、独特骨架、独特原子环境、独特片段上均显著高于百万级库，有效缓解了常规流程中的结构冗余。

化学新颖性

针对 42 个在两种库中均存在新颖性挑战的靶点，基于 PubChem 把命中分子分为四级新颖度：高（未收录且 <5 类似物）、中（已收录且 <5，或未收录且 ≥5）、低（已收录且 ≥5）、最低（专利覆盖）。

对比鲜明：传统在库筛选产出大量“低/最低新颖度”分子，集中在拥挤且可能受专利约束的区域。而 GalaxyVS 即使面对最难靶点，命中也主要落在中等新颖度区间——更可能是尚未报道、仅与已知分子部分子结构相似的全新结构。

预测亲和力：打分 + 自由能双重验证

Boltz-2 打分：对每靶用簇代表选取至多 60 个化合物。千亿库的 Boltz-2 分数分布明显向更强亲和力偏移，整体胜率 80.4%。

蛋白类别	胜率	样本数	蛋白类别	胜率	样本数
离子通道	100.0%	2	其他酶	83.3%	36
P450	100.0%	2	激酶	76.9%	26
蛋白酶	93.3%	15	核受体	72.7%	11
杂项	80.0%	5	GPCR	40.0%	5

酶类与核受体普遍 >70%。GPCR 仅 40% 是唯一明显偏低项——这与 GPCR 高度构象柔性、静态打分函数难以区分真实结合者与背景噪声的已知难点一致（且 n=5 样本偏小）。

ABFEP 自由能验证：以 BRD4 为靶，用 BAT.py 对 Top 10 分子做绝对结合自由能微扰：平均 ΔG = −6.25 kcal/mol、标准差 1.57，平均统计误差 1.12，收敛良好。其中 GVS-001 ΔG = −8.97 ± 0.89、GVS-002 ΔG = −8.03 ± 0.85 kcal/mol；二者采取经典结合模式，与 ASP381、关键锚定残基 ASN433 及保守水分子形成稳定相互作用网络。

与 docking 选择的对比：按 docking 分数选的候选能找到更低的表观能量极小（如 Compound 16 ΔG = −10.97），但波动更大——Compounds 11、13 出现弱结合（ΔG ≥ −3.00）且标准差高达 2.98，提示在显式溶剂中结构不稳、部分脱离口袋。相比之下，GalaxyVS 更倾向热力学一致、收敛良好的分子。

检索精度与极端富集

PipeANN 精度：检索时 top-K=100、L=500，随机抽三个索引对照穷举基线，平均召回 97.67%（98/97/98）。论文认为，早期筛选阶段 <5% 的遗漏可以接受，因为初筛只是粗滤，后续还有结构方法精算。

极端富集：在 0.01% 的极窄检索深度下，GalaxyVS 于 DUD-E 取得 EF₀.₀₁% = 1594.3，LIT-PCBA 取得 297.6，表明其在超大背景与极窄保留比下仍保有强富集力。

跨物种筛选与 GalaxyDB

凭借高吞吐与对 AlphaFold 结构的适配，团队把筛选从单靶点扩展到了整个蛋白质组，选取了 6 个跨演化分支的代表性物种，结构数据取自 AlphaFold 数据库：

物种	类型	结构数
人类（Homo sapiens）	哺乳动物	23,586
小鼠（Mus musculus）	哺乳动物	21,452
拟南芥（Arabidopsis thaliana）	植物	27,402
果蝇（Drosophila melanogaster）	昆虫	13,461
酿酒酵母（S. cerevisiae）	真菌	6,055
大肠杆菌（E. coli）	原核	4,370
合计		96,326

筛选规模：经口袋识别与结构过滤后，筛选空间约 400 万个结合构象、来自约 10 万个蛋白靶点。整场战役在 20,071 节点上 16 小时内完成，累计 4.0×10¹⁷ 次口袋-配体打分，单口袋有效延迟约 0.01 秒。

GalaxyDB 构建：经 elbow 分析在 102 DUD-E 靶点上确定目标多样性约 7,000 簇。每个百万级富集子集在 z-score < −4 约束下保留 30,000 分子并最大化簇覆盖，再以 Leader–Follower 聚类取代表。随后用 AutoDock Vina v1.2.5 做集成对接：仅人类数据集即覆盖 26,562 个口袋、187,715 个口袋构象，每个口袋约 200 个候选配体、exhaustiveness=16，保留最优 pose 用于建库。

这份跨物种相互作用全景图将开放释出，可支撑人类疾病治疗、抗菌发现、农药/除草剂开发等多个方向。

化合物库与评测基准

两大库合计约 94.00B，也就是常说的“1000 亿级”：

Enamine REAL Space（约 64.86B）：源自 181,288 个合格砌块、172 套合成方案，所有分子 ≤3 步可合成，成功率 >80%、交付 3–4 周（采用 2024 年 7 月版）。
WuXi GalaXi（29.13B）：整合 >30 种可并行反应与药明的砌块/骨架库，约束 ≤3 步、可行性 60–80%、交付 4–8 周（采用 2025 年 1 月版）。

与既有大规模筛选平台的对比：

基准：DUD-E（102 靶，平均 224 活性 + 约 62 倍诱饵）评估跨家族富集；LIT-PCBA（14 靶、7,761 活性、382,674 实测非活性）以实验数据替代诱饵，更贴近真实但活性比例差异大。

亮点、局限与展望

主要贡献

范式落地的工程闭环：不止提出方法，而是从底层算子、磁盘原生索引到候选精炼做了完整的系统级工程，并在国家级超算上真实跑通。
可及性与极致吞吐双模式：¥300/靶的亲民模式让千亿筛选“平民化”，狂飙模式则支撑全蛋白质组级扫描。
质量未被速度牺牲：多样性、新颖性、预测亲和力三方面均较百万级库有可量化提升，并用 ABFEP 做了物理验证。
开放数据资产：GalaxyDB 作为跨物种相互作用图谱开放释出，具备社区价值。

局限与需审慎之处

尚未经同行评议，且全部验证为 in silico（Boltz-2、AlphaRank、ABFEP），缺乏湿实验确证——论文亦将其列为未来工作。
评估模型的同源性：Boltz-2 与 AlphaRank 同以 AlphaFold3 为骨架，用一族相关模型做“重排序”与“评估”可能存在一定循环性，理想情况下需独立实验背书。
GPCR 等柔性靶点偏弱（胜率 40%），静态打分对高构象柔性靶点的固有短板依然存在。
“百万倍”是吞吐口径的跨范式比较，并非同口径逐步提速。
检索为近似：PipeANN ~97.67% 召回意味着约 2–3% 的真实近邻被漏掉。作为初筛可以接受，但属于需要知晓的取舍。
“1000 亿”实为约 940 亿，且为两库的枚举子集而非全空间；DUD-E 诱饵为计算生成，未必反映真实库分布。
“亲民”主要指亲民模式；跨物种战役本身依赖 2 万节点的大规模算力，并非低成本。

展望

随着 AlphaFold 结构覆盖与可及化学库继续扩张，“检索式”筛选有望成为常态化的一线工具。后续如果能补上系统性湿实验验证，并将 GalaxyDB 与下游优化、ADMET、可成药性评估打通，其对真实管线的价值将更为可观。

来源：https://cloud.tencent.com.cn/developer/article/2684321

Galaxy

上一篇工业机器人机械臂末端坐标系表达方式详解 下一篇认识LangChain框架状态机思维智能体教程第十六篇中

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

清华团队GalaxyVS数秒探索千亿化合物药物虚拟筛选超大规模

研究背景：两个空间的“双重鸿沟”