游乐游手机版
首页/AI教程/文章详情

人工智能驱动的虚拟筛选平台助力基于结构的药物发现

时间:2026-06-29 15:16
一种名为CVSP-AIE的AI驱动虚拟筛选平台,集成了RTMScore、KarmaDock和CarsiDock等模型,提供在线服务器和本地软件包。该平台通过层级筛选策略,支持基于结构的药物发现,显著降低了技术门槛,使实验与计算研究人员均能高效开展大规模虚拟筛选。

药物研发领域流传着一句经典总结:十年光阴、十亿美元,方能诞生一款新药。其中,早期苗头化合物的筛选环节直接决定了后续研发的成败与效率。湿实验筛选虽然能够提供最直接的实验证据,但其所能探索的化学空间极为有限,且成本高昂、耗时漫长。全计算模拟的虚拟筛选方法恰好提供了一种强有力的替代方案。虚拟筛选主要分为两大流派:基于配体的方法与基于结构的方法。前者高度依赖靶点已知的活性分子信息,若要寻找全新骨架的化合物,几乎无法实现。

相比之下,基于结构的方法展现出更高的灵活性。它无需任何先验知识,直接将化合物库中的分子逐一“置入”靶蛋白的结合口袋,评估结合强度并排序(图1a)。过去,这一路径面临一个核心瓶颈——必须预先获得蛋白质的三维结构。幸运的是,随着RCSB蛋白质数据库的持续扩充以及AlphaFold系列模型的问世,这一障碍已被大幅跨越。另一方面,作为虚拟筛选另外两大核心要素,大量对接与打分方法在人工智能的赋能下,速度与精度均已今非昔比。多项回顾性研究也证实,这些新方法完全有能力在真实项目中富集活性化合物。因此,利用AI驱动的对接与打分方法来加速基于结构的虚拟筛选,可谓水到渠成。

然而,理想虽丰满,现实却骨感。市面上各类AI模型五花八门,算法架构不同,性能与特性也天差地别。想要挑选一个合适的模型绝非易事,必须在模型性能与研究场景的具体限制之间反复权衡。更麻烦的是,用好这些工具不仅需要专业硬件,还要求掌握编程环境部署、数据前后处理,甚至排查各类计算异常的能力。这些技术门槛对大多数专注于实验的科研人员而言,无异于一堵高墙。

为了推倒这堵墙,我们为本文设计了一套以用户为中心的方案——CVSP-AIE。这是一个集成了AI引擎的综合虚拟筛选平台,包含在线网页服务器与本地软件包两部分(图1b)。网页服务器无需安装任何软件,用户只需上传靶点与参考配体文件,即可完成一整套虚拟筛选流程:数据预处理、对接筛选、结果分析,一步到位(图1d)。本地软件包则将核心的层级筛选模块打包,让用户利用自有计算资源进行大规模筛选,无需在服务器前排队等待资源(图1c)。一句话总结:CVSP-AIE的目标就是消除药物筛选的技术壁垒,让实验派与计算派都能轻松使用。

\

图 1: CVSP-AIE 核心功能与架构示意图。

CVSP-AIE流程概述

CVSP-AIE 的核心两大组件:在线网页服务器与本地软件包。网页服务器整合了六大功能模块,覆盖从数据预处理、基于对接或重打分的虚拟筛选,到结果后处理的完整工作流(如图2中云服务部分所示)。预处理模块负责准备靶蛋白与化合物库;虚拟筛选则可通过四个各具特色的功能模块来执行;无论使用哪个模块,系统都会自动对排名靠前的分子进行进一步分析,包括相互作用可视化与化学空间分析。此外,还有一个CVPL模块,专门用于计算并展示任意蛋白-配体复合物的相互作用。至于本地版,它将在线平台的核心层级筛选功能打包成一个独立软件包。用户在自己电脑上部署后,通过命令行即可调用本地资源,想筛选多大的库都行。本地版的标准操作流程包括:准备软硬件环境、下载并部署Docker镜像、安装HierVS pip包,最后执行HierVS命令(如图2中本地服务部分所示)。

\

图 2: CVSP-AIE 云服务与本地服务流程概览。

CVSP-AIE的开发过程

整个CVSP-AIE平台的核心是三款完全由AI驱动的模型:RTMScore、KarmaDock和CarsiDock。它们负责分子对接与打分,并被巧妙地组织成一种层次化的虚拟筛选策略。这些模型与策略均由侯廷军教授课题组自主研发。

传统的基于物理学的对接方法,如Glide、LeDock等,通常采用启发式算法来采样配体的可能构象,再借助预定义的打分函数进行评估。问题在于,受限于计算步数,它们很难保证完全收敛,精度存在天花板。而且,其打分函数大多基于物理或经验原则,过于简化的加和性假设也常导致结果不可靠。随着AI的发展,我们率先推出了RTMScore,它利用密集混合网络学习蛋白质与配体之间的原子距离分布,在多个重打分基准测试中均拔得头筹。但它有一个硬伤——只能重打分,无法进行对接。于是,我们又开发了KarmaDock。该模型引入了一种带有自注意力机制的E(n)等变图神经网络,直接更新配体的原子坐标,既能独立完成虚拟筛选,精度与速度俱佳。后来开发的CarsiDock则另辟蹊径,通过学习蛋白质-配体原子矩阵,再利用平移、旋转、二面角引导的几何优化,将矩阵“重构”为可信的结合构象。该方法生成的构象物理上更合理,但代价是算力消耗更大。

这三款模型在速度与精度上各有取舍。在实际虚拟筛选任务中,平衡两者至关重要。因此,我们提出了一种层级筛选策略:将这三个模型依次调用,并配上灵活的参数配置,完美满足了这一需求。

为了让更多人能够轻松使用这些工具,我们又构建了CVSP-AIE的在线版。它将三个模型集成在一个网页服务器中,并增加了数据准备与结果后处理模块。服务器界面经过专门优化,让从未写过代码的研究人员也能快速上手。服务器配备双NVIDIA RTX 4090 GPU与Intel Core i9-14900KF处理器,可同时运行两个任务。不过,共享服务器的计算资源毕竟有限,为了兼顾所有用户的体验,我们设置了限制:每个虚拟筛选任务的化合物数量上限为一百万个分子。这一数量对绝大多数研究而言已经足够,还能避免某个大任务占用全部资源。当然,考虑到药物发现中常存在超大规模筛选的需求,我们又额外开发了本地版。该版本无数量限制,用户可以在自己的计算环境中随心所欲地筛选任意数量的分子。

CVSP-AIE的优势与局限

优势

这套方案旨在为用户解决实际问题,因此设计处处体现“以人为本”的理念。它主要有四大优势:第一,上手极为简便,在直观的网页界面上传文件即可跑通完整流程,结果也是可视化、可交互的,技术门槛降至最低;第二,功能非常全面,集成了多款AI模型,用户可根据需求灵活选择策略,云端与本地两种模式基本覆盖所有应用场景;第三,性能非常能打,内嵌的这些模型在多个标准测试中均处于第一梯队,KarmaDock更是在多个实际项目中成功筛选出活性分子,实用性拉满;第四,也是非常重要的一点,核心代码通过Docker镜像与PyPI包完全开源,欢迎各位在此基础上继续开发,做出自己的创新。

局限

当然,CVSP-AIE并非十全十美,目前仍存在几个明显的短板。首先,在线服务器同时服务多个任务时,用户需要排队等待资源。由于虚拟筛选任务动辄涉及数万个分子,单个任务可能耗时数小时,遇到高峰期排队时间可能较长。其次,系统对任务运行时间的预估有时不够准确,因为分子结构优化的时间不可控,并发任务之间也可能相互干扰,导致实际完成时间与预估差距较大。第三,平台目前只支持那些结合位点明确的受体,即必须有参考配体来划定结合口袋。如果用户只有蛋白质结构,就需要先用AlphaFold3或Boltz2等工具构建出复合物结构,这增加了一个前置步骤,提高了复杂度。最后,该领域技术迭代极快,CVSP-AIE需要持续整合更先进的AI模型才能保持竞争力。这也暴露出当前模型自身的一些固有局限,例如预测的构象物理合理性还不够,对结合口袋的微小变化不敏感,以及面对全新靶点与配体时性能会显著下降等。这些都是我们下一步要攻克的难题。

实验设计

云服务

用户通过网页服务器的图形界面,可以轻松完成一整套虚拟筛选工作流(图3)。在线服务器支持同时执行两项筛选任务,超出的任务会自动排队。如果提交任务时留了邮箱,任务完成后系统会自动将结果页面的链接发送到邮箱。具体的操作流程大致如下:

数据获取与预处理: 使用在线服务器进行虚拟筛选,首先需要获取研究靶蛋白的三维结构以及与其结合的配体,这两者主要用于定位结合口袋。蛋白质结构可从RCSB数据库下载。如果库中没有现成的,建议使用AlphaFold3或Boltz2等工具先进行蛋白-配体复合物结构预测。拿到结构后,强烈建议先用预处理模块处理一下蛋白结构,尤其是从RCSB数据库下载的,通常存在环区缺失等问题。至于化合物库,有两种选择:一是使用系统自带的、已经预处理好的库;二是上传自己的库,但必须先手动用预处理模块处理一遍,以免因分子格式不对导致流程中断。

开展虚拟筛选: 预处理完成后,用户可根据需要选择以下任一策略开展虚拟筛选:(1)基于KarmaDock的高效筛选(HeVS模块):上传蛋白结构、参考配体与化合物库,提交任务即可。(2)基于CarsiDock的高精度筛选(HpVS模块):上传内容类似,可额外选择是否保留分子对接构象,提交任务即可。(3)层级筛选(HierarchicalVS模块):这是最常用的策略,先用KarmaDock对整体化合物库进行筛选,再挑出排名靠前的N个分子,进一步用CarsiDock与RTMScore进行精准对接与打分。上传内容与HpVS模块相同,额外需要设置一个“Top N”数值,提交任务即可。(4)基于RTMScore的重打分筛选(HpRS模块):该模块有所不同,输入的不是原始化合物库,而是受体、参考配体以及通过其他对接工具(如Glide或AutoDock Vina)算好的配体结合构象,提交任务即可。

结果后处理: 虚拟筛选完成后,系统会自动进入后处理分析。所有筛选模块都会基于预测的结合打分生成分子排序。此外,HeVS模块会对排名靠前的分子进行化学空间分析(包括结构聚类与性质计算)。CarsiDock相关的模块(HpVS和HierarchicalVS)除了化学空间分析,还会额外进行蛋白-配体相互作用的计算与可视化。HpRS模块则主要聚焦于排名靠前分子的相互作用分析。除了这些自动化流程,用户还可随时使用CvPL模块,对任意自己喜欢的蛋白-配体复合物进行相互作用分析。

\

图3:基于 HierarchicalVS 模块的完整虚拟筛选工作流流程。

本地服务

在线服务器因计算资源有限,单个任务最多只能处理100万个小分子。但虚拟筛选项目经常遇到比这个规模大得多的化合物库。为了满足这一需求,我们提供了本地安装包,它集成了核心的层级筛选模块,部署之后想筛选多大的库都可以。具体操作很简单:先按“设备”章节的要求准备好软硬件环境;然后从远程仓库下载我们提供的Docker镜像并部署好;再安装最新版的HierVS软件包;最后在终端中执行HierVS命令,指定好相关参数,筛选任务即启动。化合物库的预处理在工作流中会自动完成。

预期结果

CVSP-AIE 会生成两大类结果:一是基于预测结合打分的分子排序列表(图4a),二是对排名靠前分子的深度分析结果(图4b~e)。深度分析包括蛋白-配体相互作用计算与可视化,以及分子化学空间分析,这些分别由ODDT v0.7和iChemSpace工具完成。

用户可以在预处理模块的结果页面中找到处理好的蛋白质结构与化合物库文件。其中,蛋白质结构使用Schrödinger套件中的Protein Preparation Wizard模块进行准备,化合物库则用RDKit程序包标准化,并剔除了未通过检查的分子。在HierarchicalVS模块的结果界面中,用户不仅能看到多维度的虚拟筛选结果,还能获取基于KarmaDock、CarsiDock和RTMScore产生的各种分析输出,具体内容如图4所示。可用的数据与可视化工具主要包括:分子排序输出、蛋白质-配体相互作用分析与可视化,以及交互式化学空间分析与可视化。在整个CVSP-AIE平台中,HierarchicalVS模块集成了所有AI模型与分析手段,因此其输出最为全面。

相比之下,其他专用模块仅包含完整工作流的一部分,它们的输出可视为HierarchicalVS完整结果的子集。具体来说:HeVS模块提供基于KarmaDock的分子排序,以及对排名靠前分子的化学空间分析。HpVS模块提供经RTMScore重打分的排序、相互作用分析以及化学空间分析。HpRS模块则提供经RTMScore重打分的排序和相互作用分析。最后,CvPL模块是一个通用工具,可对任意给定的蛋白质与配体构象进行相互作用分析。

\

图 4: CVSP-AIE 平台的预期结果。

——————————————

参考文献

Gu, S., Zhang, X., Xiao, M. et al. Facilitating structure-based drug discovery with an artificial intelligence-driven virtual screening platform. Nat Protoc (2026). https://doi.org/10.1038/s41596-026-01389-z

来源:https://cloud.tencent.com.cn/developer/article/2699950
上一篇机器学习辅助高通量细胞表面抗原抗体发现 下一篇健康AI中大型前沿模型稳健性与应用准备度评估
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网