游乐游手机版
首页/AI教程/文章详情

基于RNAbpFlow碱基配对增强的RNA三维结构生成新方法

时间:2026-07-02 12:03
深度学习在生物分子建模领域取得了显著进展,但RNA分子因其高度柔性、进化序列稀缺以及同源结构信息有限等特性,使得精准预测其三维结构始终是一项极具挑战性的任务。近期,研究团队提出了一种名为 RNAbpFlow 的创新方案——这是一种基于 SE(3) 等变 Flow Matching 的生成模型,能够以

深度学习在生物分子建模领域取得了显著进展,但RNA分子因其高度柔性、进化序列稀缺以及同源结构信息有限等特性,使得精准预测其三维结构始终是一项极具挑战性的任务。近期,研究团队提出了一种名为 RNAbpFlow 的创新方案——这是一种基于 SE(3) 等变 Flow Matching 的生成模型,能够以 RNA 序列和碱基配对信息为条件输入,直接生成 RNA 的三维结构构象集合。该方法采用核碱基中心表示,可端到端地输出全原子 RNA 结构,无需显式或隐式依赖进化信息,也无需借助同源结构模板。实验结果表明,引入碱基配对条件后,RNAbpFlow 在 RNA 拓扑采样和大规模预测建模的基准测试中展现出更广泛且更稳健的性能提升。

\

RNA 三维结构解析已成为结构生物学领域的核心议题,尤其是在 RNA 药物与 RNA 靶向小分子治疗快速发展的背景下。要设计功能明确的 RNA 分子或加速 RNA 介导的药物发现进程,必须先深入了解其在三维空间中的实际构象。然而,RNA 天然具有高度柔性和构象灵活性,这使得 X 射线晶体学、核磁共振和冷冻电镜等实验手段常常面临技术瓶颈。因此,计算 RNA 结构预测逐渐成为填补结构空白、解析其构象动态的关键工具。

传统方法包括基于模板的建模方式,以及依赖物理势能、知识势能或片段库构建结构模型的策略。遗憾的是,蛋白质数据库中 RNA 结构数据本就稀少,且计算成本高昂,尤其不适合大型、拓扑复杂的 RNA 进行快速预测。近年来,受 AlphaFold2 在蛋白质结构预测领域成功的启发,基于深度学习的 RNA 结构预测方法层出不穷。但不少方法仍然依赖多序列比对或生物语言模型隐式学到的同源信息,而可靠的 RNA 多序列比对本身获取难度较大。更为关键的是,现有方法大多未能充分利用 RNA 的二维碱基配对信息,尤其是非经典碱基配对及复杂拓扑结构中的关键相互作用。此外,RNA 通常并非呈现单一静态结构,而是表现为多个构象状态的分布,因此迫切需要一种能够从序列和碱基配对条件出发、直接生成全原子 RNA 三维构象集合的新方法。

方法

研究人员提出的 RNAbpFlow 本质上是一个基于 SE(3) 等变 Flow Matching 的条件生成模型,专为单链 RNA 单体生成全原子三维结构而设计。该模型以 RNA 序列和碱基配对图作为条件输入,其中碱基配对信息来自三种互补的注释方法,覆盖了经典与非经典碱基配对相互作用。RNAbpFlow 采用核碱基中心表示,将每个核苷酸视为一个刚体框架,通过预测旋转、平移及可旋转键的角度,以端到端方式重建全原子 RNA 结构。这一设计省去了后处理几何优化模块,显著提升了大规模结构采样的效率。在训练阶段,研究人员还引入了以碱基配对为中心的辅助损失,帮助模型更好地实现输入的经典与非经典碱基配对约束。

\

图1|RNAbpFlow 方法框架。

结果

RNAbpFlow 框架概述

RNAbpFlow 基于 FrameFlow 构建,将 RNA 序列中的每个核苷酸表示为由平移和旋转定义的刚体框架。模型从一个由高斯噪声初始化的核苷酸框架出发,在 RNA 序列特征与碱基配对图的引导下,通过迭代采样逐步生成 RNA 三维结构。它不仅生成骨架原子,还通过预测多个扭转角来恢复核糖、磷酸骨架和碱基的全原子坐标。这样一来,RNAbpFlow 便能以端到端方式生成全原子 RNA 三维结构,同时显式地对核碱基的方向和柔性进行建模。

RNA 结构集合生成性能

研究团队首先将 RNAbpFlow 与 RNAJP 进行了对比。RNAJP 是一种基于粗粒度分子动力学模拟的 RNA 三维结构采样方法,显式考虑了碱基配对、碱基堆叠及长程环—环相互作用。在一个包含三路连接结构的 12 个 RNA 靶标基准集上,RNAbpFlow 为每个靶标生成了 1000 个三维结构样本,结果在 TM-score 和 lDDT 两项指标上均优于 RNAJP。RNAbpFlow 的平均 lDDT 为 0.66,RNAJP 为 0.59;平均 TM-score 为 0.38,RNAJP 为 0.32。更值得一提的是,RNAbpFlow 生成正确折叠结构的比例更高,说明它不仅能够找到更优的最优结构,还能更高效地采样全局拓扑与局部构象。

\

图2|RNAbpFlow 与 RNAJP 的采样性能比较。

CASP15 靶标上的性能

在 CASP15 的 RNA 靶标上,研究人员将 RNAbpFlow 与多种基于物理、知识及深度学习的 RNA 三维结构预测方法进行了全面比较。当输入准确的天然碱基配对信息时,RNAbpFlow 的平均 TM-score 达到 0.48,全原子 RMSD 为 7.77,非 Watson–Crick 碱基配对保真度为 0.62,显著超越其他方法。若改用预测的碱基配对信息,RNAbpFlow 的性能虽有所下降,但在大多数指标上仍优于 DRfold、NuFold、trRosettaRNA 和 RhoFold 等深度学习方法。对于包含非经典相互作用和假结的复杂 RNA,RNAbpFlow 同样表现出更好的碱基配对保真度,尤其在非经典碱基配对和碱基堆叠恢复方面更具优势。

CASP16 靶标上的性能

在 CASP16 盲测靶标中,研究人员重点评估了长度不超过 200 个核苷酸的 14 个 RNA 靶标。RNAbpFlow 无需多序列比对或模板信息,仅以预测的碱基配对作为条件输入,但其平均最大 TM-score 和 lDDT 却超过了两个 CASP16 表现最优的自动服务器方法——AF3-server 和 Yang-Server。对于进化信号弱、MSA 较“浅”的困难靶标,RNAbpFlow 的表现尤为突出。这表明在 RNA 同源序列信息不足的情况下,利用碱基配对条件进行建模具有显著优势。

与本地运行的 AlphaFold3、NuFold、trRosettaRNA2、DRfold2 相比,RNAbpFlow 同样取得了更优的平均最大 TM-score 和 lDDT。在 14 个长度不超过 200 个核苷酸的 CASP16 靶标中,RNAbpFlow 在 12 个靶标中至少生成了一个正确折叠的结构,而 AlphaFold3 仅覆盖了 8 个。对于超过 200 个核苷酸的大型 RNA,RNAbpFlow 仍优于 NuFold、trRosettaRNA2 和 DRfold2,只是略低于 AlphaFold3。研究人员分析认为,这主要是因为大型 RNA 的预测碱基配对质量较弱,从而限制了 RNAbpFlow 的条件生成效果。

\

图3|RNAbpFlow 与先进方法在 CASP16 靶标上的比较。

数据增强、微调和碱基配对准确性的贡献

研究人员还深入分析了交叉蒸馏数据增强、基于预测碱基配对的微调以及碱基配对准确性对 RNAbpFlow 的影响。结果显示,交叉蒸馏训练能够显著提升性能。使用预测碱基配对时,引入蒸馏训练后,平均最大 TM-score 从 0.50 提升至 0.57,平均最大 lDDT 从 0.61 提升至 0.69。改用实验碱基配对作为输入时,性能进一步提升,平均最大 TM-score 达到 0.68,平均最大 lDDT 达到 0.77。这说明 RNAbpFlow 的性能上限很高,但高度依赖于输入碱基配对的准确性。

进一步采用预测碱基配对进行微调后,RNAbpFlow 的平均最大 TM-score 提升至 0.61,同时平均 TM-score 和 lDDT 也显著改善,缩小了预测碱基配对与实验碱基配对之间的性能差距。研究人员还发现,RNAbpFlow 会高度遵循输入的碱基配对条件:输入天然碱基配对时,输出结构与输入高度一致;输入带有噪声的预测碱基配对时,模型也会较强地复现这些不准确的约束。因此,碱基配对预测质量是影响 RNAbpFlow 下游三维结构生成质量的关键因素。

消融实验

为评估碱基配对信息的重要性,研究人员在 RNA3DB 的非冗余测试集上进行了消融实验。模型分别采用三种不同碱基配对注释图、三者组合,以及完全不使用碱基配对信息进行训练和推理。结果显示,三种碱基配对图联合输入时效果最佳,平均最大 TM-score 和 lDDT 分别达到 0.51 和 0.71。与仅使用序列条件的基线模型相比,TM-score 平均提升了 41.7%,lDDT 平均提升了 54.3%。这意味着碱基配对信息在 RNA 三维结构生成中扮演着关键角色。

研究人员还评估了辅助损失的贡献。只要移除任意一个与碱基配对相关的辅助损失,采样质量便会下降。这说明围绕碱基配对设计训练监督,确实有助于模型更忠实地实现输入的经典与非经典相互作用。

图4|碱基配对条件提升 RNA 三维结构生成质量。

讨论

本研究开发的 RNAbpFlow 是一种以序列和碱基配对为条件的全原子 RNA 三维结构生成方法。它基于 SE(3) 等变 Flow Matching,不依赖多序列比对、同源结构模板或隐式进化信息,而是直接利用 RNA 的碱基配对信息,以端到端方式生成全原子三维结构集合。实验结果清晰表明,引入碱基配对条件能够显著提升 RNA 结构生成与预测的性能,且这种提升与输入碱基配对的质量密切相关。

RNAbpFlow 的意义在于,它为 RNA 构象集合生成提供了一个快速、端到端、全原子级别的深度生成框架。与传统仅预测单一结构的方法不同,RNAbpFlow 能够生成大量候选构象,更适合研究 RNA 的构象动态。由于其不依赖同源序列和模板,特别适用于进化信息稀缺、结构同源性较弱的 RNA 靶标。

不过,RNAbpFlow 也存在明显短板。首先,其采样和预测性能高度依赖输入碱基配对信息的准确性。对于大型 RNA,当前二维结构预测器给出的碱基配对图质量会下降,进而限制三维结构的生成效果。其次,当前模型尚未针对超长 RNA 进行专门优化,未来可能需要更多长 RNA 的训练数据,以及更适合长序列建模的架构,例如局部感知消息传递和稀疏注意力机制,以提升长程信息的传递效率。

展望未来,RNAbpFlow 可进一步扩展,不仅引入碱基配对信息,还可结合多序列比对、化学探针反应性数据、近邻连接或交联实验约束等额外信息,以改善困难靶标的预测精度。同时,探索更多开放可用的碱基配对注释流程,也可能进一步提升训练标注质量、模型鲁棒性和整体预测准确性。总体而言,RNAbpFlow 为 RNA 三维结构建模提供了一种兼具数据驱动与结构先验的新范式,有望推动 RNA 结构预测、RNA 动态构象研究及 RNA 药物设计的发展。

参考资料
Tarafder, S., Bhattacharya, D. RNAbpFlow: base pair-augmented SE(3) flow matching for conditional RNA 3D structure generation. Nat Methods (2026).
https://doi.org/10.1038/s41592-026-03128-4

来源:https://cloud.tencent.com.cn/developer/article/2701568
上一篇实验引导AlphaFold3解析高一致蛋白质构象集合 下一篇WorkBuddy记忆功能深度解析:AI如何理解工作习惯
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还