RNA的功能远不止传递遗传信息那么简单,这一点已经不是什么新鲜事了。它们能充当催化剂、调控开关、适配体,甚至是多种生物机器的核心组件。而这一切,都高度依赖RNA分子自身的结构和动态行为。现有的RNA计算模型,要么只盯着结构预测,要么就是针对某一类特定的折叠问题。现在情况有了变化——PlanarFold出现了,这是一种粗粒化模型,思路很巧妙:把RNA放在二维平面里,用分子动力学结合动态规划,来探索它那些变化多端的动态行为。别小看这个“降维”操作,它的计算速度,比全原子分子动力学模拟快了不止四个数量级。
在二级结构这个层面上,PlanarFold的表现相当亮眼。无论是天然二级结构、热力学与动力学性质、力学响应,还是共转录折叠和从头折叠路径,它都能在多种场景下定量复现实验结果。它能揭示出来的构象动力学细节,反过来又能帮助我们理解RNA是怎么执行功能、又是怎么失灵失灵的,甚至还能给突变设计、治疗干预,以及RNA器件的开发提供潜在的靶点和设计线索。
RNA的四种碱基,看起来就A、U、C、G这么简单,但它们编码的能量景观却极其复杂。跟蛋白质不一样,RNA的能量景观往往更“崎岖”,到处是局部能量极小值,而这些局部状态大多由二级结构相互作用稳定——正是这些状态支撑着RNA那精细又复杂得让人头疼的结构动态。
理解RNA的构象动态,对解释调控RNA的功能机制来说太关键了。问题在于RNA太“软”了,高分辨率结构解析是个大的麻烦。X射线晶体学和冷冻电镜面对动态异质集合常常束手无策;核磁共振虽然能研究动态,但通常也只适用于小RNA。单分子技术像光镊和原子力显微镜,倒是能在外力下看RNA的机械性质和折叠过程,可自由状态下的RNA在没有外力时到底是怎么折叠成天然结构的,我们仍然缺高效、细粒度的实验观察手段。所以,一个高效率的计算框架,既能解析RNA的动态异质性,又能重建它背后的能量景观,就成了刚需。
过去二十多年,RNA结构与动力学的计算模型一直在演进,从从头预测、模板建模、粗粒化模拟,到新兴的AI方法,应有尽有。粗粒化策略通过减少自由度来提升效率,有的模型用多个珠子表示一个核苷酸,有的用一个珠子表示一个,还有的进一步简化到把螺旋和环当成图结构。但这些方法各有各的短板,始终缺一个统一框架,能把结构预测、热力学分析、动力学表征、力学模拟和折叠路径重建全包圆了——尤其是在复杂的大RNA高效采样上,瓶颈特别明显。
也正是因为这样,研究人员才搞出了PlanarFold。这个模型的核心想法很直接:把RNA放到二维平面上演化,一门心思研究它的二级结构。它能预测天然二级结构,抓住替代构象和自由能差异,复现实验交换速率,模拟光镊实验里的展开与复折叠中间体,还能分析共转录折叠和大RNA的从头折叠路径。
方法
每个RNA核苷酸被表示成一个粗粒化珠子,坐标限制在二维平面里演化。PlanarFold的势能函数包含键连接、茎区角度、碱基配对、碱基堆叠、范德华相互作用和静电相互作用等项。最关键的创新在于:碱基配对、堆叠和茎区角度这些项,不是事先固定死的,而是在每个分子动力学时间步里,通过一个改造过的Nussinov动态规划算法实时去识别可能形成茎区的碱基对。这个动态规划既考虑了序列能不能配对,也考虑了当前二维坐标里残基之间的距离——这样一来,二级结构就能随着模拟过程动态地形成、断裂和重排。然后研究人员用高质量的PDB RNA结构构建训练集和测试集,通过模拟退火和RNAstructure辅助采样生成候选构象池,再用遗传算法优化力场参数,让模型能从大量候选结构中挑出天然或近天然的二级结构。模型的性能,又通过二级结构预测、NMR热力学与动力学数据、共转录折叠实验、光镊力谱实验,以及大RNA从头折叠模拟,挨个验证了一遍。
结果
模型表示、力场设计与采样策略
研究人员设计PlanarFold时,主要基于两个观察。第一,RNA的二级结构通常在三级结构之前就形成了,而且在很多动态过程中起主导作用。第二,RNA的二级结构本质上可以在二维平面里有效表示,不一定非得上三维。所以PlanarFold把RNA限制在二维空间,一个珠子表示一个核苷酸,让体系在牛顿动力学下演化。
这种单珠模型牺牲了原子细节,但保留了A、U、C、G四种碱基类型,使得模型能在极简框架下研究碱基配对的形成、断裂和重排。跟多珠模型比,PlanarFold采样效率更高;跟那些只依赖预定义二级结构的单珠模型比,它又能动态识别并更新二级结构。核心就是把动态规划嵌进分子动力学里。每个时间步,模型都会根据瞬时坐标和碱基配对权重,找出当前最合理的茎区,然后决定哪些残基该受到配对、堆叠和角度约束。
这个设计解决了粗粒化RNA模型里一个很核心的矛盾:模型太简化,就不好定义碱基配对和堆叠;模型太精细,采样复杂RNA动态的效率又不够。PlanarFold用动态规划实时定义二级结构,让单珠模型也能有显式、可变的二级结构约束,一举两得。
图1:PlanarFold 的二维粗粒化表示、动态规划辅助力场和采样框架。
优化力场参数用于RNA二级结构预测
想可靠地捕捉RNA动态,力场得能区分低能的天然或近天然构象和高能的误折叠构象。研究人员先搭了个高质量RNA数据集,给每条RNA生成了候选二维构象池,然后优化PlanarFold的力场参数,让它能从池里选出最接近天然二级结构的那个。
为了避免和深度学习预测器的训练集重叠,研究人员整理了好几种深度学习方法用过的训练数据,又额外建了一个独立测试集。这个测试集包含了新近释放的高分辨率RNA PDB结构,并且去掉了和已有训练数据高度相似的序列。因为PlanarFold主要面向二维二级结构动力学,所以那些长程假结和复杂非嵌套相互作用占了大头的RNA,也被排除在外了。
PlanarFold用的是“采样—选择”策略,所以每条RNA都得有足够丰富的候选构象池。研究人员结合无约束模拟退火和基于RNAstructure的有约束采样,生成了天然、近天然和误折叠的候选结构。然后用遗传算法优化了一小部分参数,这些参数控制着静电、范德华、碱基配对、碱基堆叠和茎区角度等能量项的相对贡献。优化后的模型,在独立测试集里确实把二级结构预测的表现提了一大截。
跟多种传统方法和深度学习方法比,PlanarFold的单一输出略低于少数最强的深度学习模型,但优于或接近许多传统方法和复杂模型。更重要的是,PlanarFold用的是简洁的物理力场,而不是大规模神经网络,所以序列独立性和泛化能力都挺好。在更严格的跨RNA家族验证里,PlanarFold展现出来的预测能力,跟RNAstructure和mfold不相上下。
另外,PlanarFold不只是输出一个最低能构象,它能采样好几个候选构象。把前3个或前10个候选构象作为一个集合来考虑时,预测表现明显比单一构象好。这说明PlanarFold的优势不光在于找到一个最优结构,更在于能提供RNA可能的构象集合——这可是后续动力学和热力学分析的底子。
图2:PlanarFold 力场参数优化与RNA二级结构预测性能评估。
PlanarFold再现RNA热力学和动力学
RNA的热力学性质,决定了不同构象之间的相对稳定性;动力学性质,则决定了构象转换有多快。很多RNA的构象转换主要发生在二级结构层面,所以研究人员推测,二维模型也能有效地复现这些热力学和动力学特征。
研究人员先拿一组已经由NMR表征的发夹RNA来测试。这些RNA会发生1个核苷酸配准位移的碱基对重排。PlanarFold通过长时间平衡轨迹统计不同状态的占比,再用一个全局缩放因子校准能量尺度。结果显示,PlanarFold对自由能差的预测和NMR实验结果高度一致,整体表现接近RNAstructure,还优于部分传统方法。
接着,他们把测试范围扩大到了更多类型的构象转换,包括HIV SL1里2个核苷酸的配准重排、多个双稳态RNA的全局二级结构重排、三稳态RNA的核化位点辅助转换,还有7SK RNA SL3里更复杂的茎区配准重排。PlanarFold在多种情况下都能复现实验观察到的主要状态比例和转换行为。对部分复杂系统,模型还揭示了实验之外的快速局部交换事件,这意味着它有可能帮我们发现隐藏的动态过程。
单点突变对热力学的影响,研究人员也测了。在P5abc构建体中,PlanarFold正确再现了不同突变对基态和激发态平衡的改变。比如,一个突变能翻转基态与激发态的相对稳定性,另一个突变能直接消除激发态。这说明PlanarFold可以用来预测突变到底是怎么重塑RNA构象景观的。
更关键的是,PlanarFold对动力学的预测能力也很不错。研究人员把模拟中的前向、后向和总体交换速率和NMR测量结果对比了一下,发现两者在多个数量级范围内相关性非常好。根据这些结果,他们估算了PlanarFold的等效时间尺度——模拟里的短时间演化,可以对应真实世界里更长时间的RNA运动,整体速度提升了大约5万倍。跟统计型粗粒化模型比,PlanarFold作为物理动力学模型,能更好地复现热力学和动力学,而不只是在那儿采样构象。
图3:PlanarFold 对RNA构象转换热力学与动力学的定量再现。
PlanarFold再现共转录折叠路径
在生理条件下,RNA折叠通常从转录过程中就开始了。RNA聚合酶一边合成新生链,部分转录产物就会形成动力学陷阱或者中间体。这些中间体可能持续存在,甚至会被生物调控机制利用。共转录折叠还会限制可访问的路径数量,反过来帮助RNA更快地折叠到功能结构。
研究人员先测试了一对双稳态RNA开关。这两个RNA序列方向相反,能形成能量接近的分支状结构和杆状结构。实验结果显示,直接顺序的RNA在共转录折叠中几乎完全形成分支状结构,而反向顺序的RNA则主要形成杆状结构。PlanarFold根据等效时间尺度设置了模拟转录速度,成功再现了这种方向依赖的折叠产物差异。直接开关在模拟里产生了分支状构象,反向开关则分裂成两条路径,主要形成杆状构象。
通过分析单分子轨迹,研究人员发现反向开关里的新生链能够通过核化位点辅助的链置换机制,从一个发夹转变到另一个发夹,然后形成杆状结构。相比之下,直接开关里相应的核化区域更容易被其他局部结构占据,所以很难发起链置换。一个破坏核化位点的单点突变,在实验中降低了杆状构象的比例,PlanarFold也再现了这个趋势。
跟一些理论模型不同,PlanarFold作为分子动力学模型,可以记录每一次转录事件中的瞬时结构和中间体,而不是只给出一步式的状态转换。它能清清楚楚地看到旧链是怎么逐渐被新生链替代的、竞争链之间偶尔发生的交换,还有可及性和稳定性怎么共同影响链置换。
研究人员还用大肠杆菌信号识别颗粒RNA进一步验证了模型。在不使用任何实验约束的情况下,PlanarFold再现了此前由SHAPE实验支持的关键共转录折叠中间体和链置换事件。这说明PlanarFold可以用来分析新生RNA的动态集合,甚至可能指导设计突变或小分子来调控RNA的共转录折叠路径。
图4:PlanarFold 模拟RNA共转录折叠路径和链置换中间体。
PlanarFold捕捉RNA折叠路径与力学特征
RNA通常是按层级方式折叠的,二级结构先形成,然后进一步组装成高阶结构。复杂RNA的三级折叠能慢到秒甚至分钟尺度,二级结构形成则快得多,在无外力条件下往往很难用残基分辨率直接观测。光镊实验可以通过拉伸和松弛RNA,来解析机械展开和复折叠的路径。研究人员在PlanarFold里实现了受控分子动力学功能,用来模拟光镊的拉伸和松弛过程,然后和实验力谱结果做了比较。
先测的是短发夹RNA P5ab。PlanarFold能识别出实验中观察到的主要展开和复折叠中间体。虽然模拟里部分断裂力和滞后现象跟实验有出入,但通过调整与实验缓冲液条件相关的参数——比如降低碱基配对强度、增强电荷屏蔽——模拟结果就和实验更接近了。这说明PlanarFold可以通过条件校准,来近似模拟不同实验环境下的机械行为。
接着,研究人员用P5ab比较了有外力和无外力条件下的折叠路径。结果显示,在没有外力的从头折叠里,P5ab经常陷进非天然的动力学陷阱;而在外力作用下,这些陷阱被绕开了,终端的张力重塑了能量景观,让RNA更倾向于沿着通往天然结构的路径折叠。这一结果提示,光镊测得的路径,可能并不总是完全等同于自由折叠路径——外力本身会改变折叠景观。
为了证明PlanarFold能处理更长的RNA,研究人员模拟了pri-miR-30c,一个含多个内部环和bulge loop的长发夹。PlanarFold再现了实验验证的主要中间体,并且显示展开和复折叠的检查点主要出现在较大的内部环附近,因为在这些位置上连续碱基堆叠被打断了。他们还测试了一个没有内部环的180 bp RNA发夹。PlanarFold同样捕捉到了实验里的多个中间体,并且发现停滞位点偏好出现在GC富集区域的上游。这和G-C碱基对及连续堆叠更稳定的事实一致——即便是在规则的长螺旋里,局部序列组成也会塑造力学的折叠路径。
图5:PlanarFold 再现RNA光镊实验中的机械展开、复折叠中间体和力学路径。
大型复杂RNA的从头折叠
眼下很多计算模型都很难从线性构象开始,完成大型复杂RNA的从头折叠。研究人员测试了两个较大的RNA系统:I型内含子核酶的P4-P6结构域,以及Mg²⁺感应核糖开关的适配体结构域M-box。PlanarFold能在可接受的计算时间内,从线性构象把它们折叠出二级结构来。
在无约束的从头折叠里,PlanarFold对这两个RNA都达到了较高的成功率。受到前面P5ab结果的启发,研究人员又测试了外力辅助复折叠能不能减少非天然结构的形成。结果表明,适当的牵引力可以显著提高P4-P6和M-box的正确折叠成功率。外力通过重塑能量景观,让RNA经过一系列中间体,更顺畅地到达天然二级结构。
研究人员指出,这两个RNA在模拟退火过程中表现出自发退火到近天然状态并保持稳定的能力,这可能反映了某些功能RNA经过进化优化之后,确实具有较少的误折叠陷阱。比如P4-P6是催化核酶的结构域,很可能就需要快速且可靠地形成正确的二级结构。PlanarFold估计P4-P6的二级结构能在毫秒量级形成,明显快于其三级结构的形成过程。相比之下,其他粗粒化模型在这些RNA上很容易陷进误折叠状态,而PlanarFold能在没有二级结构约束的情况下,从头折叠较长的复杂RNA。
虽然PlanarFold目前只在二级结构层面运行,但它的成功表明,把动态规划辅助的分子动力学扩展到三维粗粒化模型,未来是有可能用来模拟复杂RNA的三级折叠过程的。
图6:PlanarFold 实现大型复杂RNA的从头二级结构折叠。
讨论
RNA二级结构,是整个RNA折叠动力学、三级结构形成和生物功能的基石。通过把动态规划、二维降维和单珠核苷酸表示结合起来,研究人员开发了PlanarFold这个二维粗粒化分子动力学模型。它把精力集中在了RNA二级结构层面的动态过程上,用不多的参数就能预测天然结构、替代构象,以及构象转换的动力学。
PlanarFold的优势在于,它同时兼顾了采样效率和动态可解释性。单珠粗粒化大幅平滑了RNA那个复杂又崎岖的能量景观,让构象采样速度上了一个大台阶;动态规划则为每个时间步都提供显式但可变的二级结构定义,使得模型能追踪碱基配对、堆叠、茎区的形成和断裂。正是这种DP辅助分子动力学的框架,让PlanarFold能解析那些短暂的中间体、构象切换事件、共转录链置换过程,还有机械折叠路径。
当然,这个模型也有明确的限制。因为PlanarFold是个二维模型,它并不适合研究那些主要由三级结构和三维长程相互作用主导的RNA动态。很多长程假结或非嵌套碱基对,受限于二维几何是难以表示的,所以PlanarFold更适合嵌套或非交叉二级结构占主导的RNA。对于假结含量高的RNA,它的适用性就很有限了。研究人员也指出,未来可以沿着“动态规划辅助分子动力学”这个思路去开发三维粗粒化模型,进一步模拟RNA的三级折叠。
另一个限制是,当前模型对各种loop稳定性和非经典碱基对的序列依赖性处理,还是很简化的。这主要受限于实验热力学数据不足。未来如果能结合更多的热力学数据、统计数据,以及AI驱动的快速量子化学计算,loop和非经典碱基对的能量估算应该能更准。RNA的能量景观还会受到离子、配体、核酸和蛋白质等外部因素的强烈影响,所以未来的模型也需要逐步把这些相互作用纳入进来。
总的来说,PlanarFold是一个面向RNA二级结构动力学的高效工具。它不止能用来做二级结构预测,还能做热力学和动力学分析、共转录折叠研究、机械折叠路径解析,以及大RNA的从头折叠探索。未来如果加上SHAPE这类实验约束、支持环状RNA、开发更强的可视化工具,再实现GPU加速,PlanarFold很有希望成为研究大型RNA慢构象变化和动态功能机制的重要平台。
参考资料
Xiang, L., Xue, Y. PlanarFold: a coarse-grained molecular dynamics model of RNA in two-dimensional space. Nat Commun (2026).
https://doi.org/10.1038/s41467-026-74729-y
