为什么生物系统会展现出如此丰富多样的时空模式?从细胞周期的精准振荡,到胚胎发育过程中的有序波动态,背后都有统一的动力学逻辑在驱动。动力系统理论为描述这些相互作用的生物组分如何在时间与空间中演变,提供了坚实的数学框架。
然而,许多生物系统包含非线性反馈、时间延迟和多尺度相互作用,传统的机制建模方法在面对日益高维、复杂的实验测量数据时,显得越来越力不从心。正因如此,数据驱动方法开始进入主流视野:直接让数据“说话”,在未知全部机制的情况下推断模型结构。这为动力学建模开辟了一条全新的路径。
在这篇技术综述中,研究人员系统梳理并比较了当前用于发现生物动力系统模型的三大类数据驱动方法:基于回归的方法、基于网络的架构以及分解技术。下面我们逐一展开。
生物系统动力学的多样性与建模目标
生物系统的动力学行为在多个尺度上均可观察到。纯粹时间维度的典型例子包括:控制细胞分裂的细胞周期振荡器、与昼夜节律同步的生物钟、细胞内钙振荡、酵母代谢中的糖酵解振荡、DNA损伤反应中的p53振荡,以及由阈值触发的神经兴奋性。而时空动力学方面,则有早期胚胎发育的有丝分裂波、社会性变形虫聚集时的环腺苷酸波,以及再生组织中的Erk活性行波。
这些系统的共同点是:非线性反馈、时间延迟和空间耦合相互交织,产生了既复杂又富有规律的时空模式。为了让这些现象能在可控条件下被研究,研究人员通常会构建简化模型,以捕获相同的基本动力学原理。
理解一个动力系统通常包含三个互补的目标:根据当前测量预测未来状态;识别导致观测行为的变量及其反馈网络;刻画系统可能出现的解类型——稳态、极限环以及它们之间的转变。如果能够推断出完整的控制方程,这些目标原则上可以同时实现。
但在现实中,面对高维、观测不完全、相互作用不确定的生物系统,完整推断几乎不可能。这就解释了为什么数据驱动方法现在如此重要——它们在机制建模与经验推断之间架起了一座务实的桥梁。
Koopman算子:一个统一的理论框架
传统上,动力系统研究主要依赖基于方程的建模,即从第一性原理推导控制规律。对于低维、机制明确的系统,这种方法非常有效;但对于大型生物网络,很快就会遇到瓶颈。
Koopman算子理论提供了一个非常优雅的统一视角。简单来说,与其直接分析原始的非线性状态变量,不如把它们转换为一组新的函数,即可观测量。在这些可观测量构成的空间中,原本非线性的动力学可以变成线性的。如果能找到有限的几个可观测量来捕捉所有相关动力学,就可以像分析线性系统那样直接进行特征分析。
这相当于在经典线性分析和现代数据驱动方法之间建立了一座概念性的桥梁。实际上,很多用来研究非线性动力系统的方法,都可以被解释为以不同方式近似Koopman算子的作用,只不过有些是显式的,有些是隐式的。
按照方法论基础,研究人员把数据驱动方法分为三类:
第一类,基于回归的方法。它们通过回归检验符号模型方程是否能够解释观测数据,通常会生成具有符号形式的显式方程,可解释性强,但在高维场景下容易受维度灾难影响。
第二类,基于网络的方法(比如神经网络),擅长捕捉复杂的非线性关系,通常在高维潜在空间中学习可观测量,预测能力强,但直接可解释性有限。
第三类,分解方法。它们通过数学变换直接从数据中提取主导的时空模态,很多模态本身就对应Koopman模态,从而使复杂非线性系统转化为低维或线性结构。
为什么按方法论分类,而不是按“监督/无监督”或“白箱/黑箱”来划分?因为那些标签本身并不能真正决定模型的可解释性。譬如,稀疏回归模型通常被视为白箱,但如果把它用在高维、噪声强且基函数选择不当的数据上,结果也可能完全不可解释。反过来,神经网络常被当成黑箱,但如果通过架构约束或加入物理信息特征,解释性也可以大幅提升。因此,关注具体方法本身,才更有实际意义。
需要特别说明的是,不同方法有不同的设计取舍,评价它们不能用一个标准来衡量。符号发现方法优先考虑简约性和结构真实性,而水库计算等方法更看重高保真预测。某种分解方法在长期预测上表现不理想,不一定是它的失败,可能是因为它本就侧重于潜在状态的识别或动力学结构的刻画。
基于回归的方法:符号化、可解释、但数据要求高
基于回归的方法是最常用的数据驱动工具之一。其核心思路是:通过一个显式的函数关系,判断一个变量的变化如何由其他变量来解释。简单说,就是选择模型结构与参数,使它尽可能准确地预测观测数据。
这类方法又可以细分为三大类:强调因果推断的方法、基于预定义候选库和稀疏回归的方法、以及进化算法。尽管方法论不同,它们有两个典型的共同特征:第一,通常产生符号化、可解释的模型——要么是相互作用网络,要么是显式微分方程;第二,它们本身无法判断数据是否覆盖了所有相关状态变量。
因果推断方法
这类方法擅长重构相互作用网络。经典的Granger因果检验通过比较加入另一个变量的历史信息对预测准确性的影响来判断因果关系。但它在非线性、振荡或同步耦合系统中容易产生虚假的全连接网络,需要谨慎使用。一些基于约束的替代方法可以在一定程度上缓解这个问题。
稀疏回归与SINDy
稀疏回归方法通过从预定义候选函数库中选择少量活跃项来重构控制方程。代表性方法SINDy强调简约性和可解释性,在用户定义的候选函数库上执行稀疏回归,识别出最少量的活跃项。这种方法在领域知识可以指导基函数选择时非常强大。但局限也明显:依赖预定义函数库、对数据质量高度敏感,尤其是在噪声或时间分辨率不足时,效果会迅速下降。
进化方法与符号回归
符号回归可以突破预定义函数库的限制,因为它能同时发现候选模型的结构和参数。模型被编码为层级表达式树,通过多代进化来优化。它的优势在于灵活性,但计算成本高、容易过拟合、对噪声敏感。在生物学中,成功往往依赖系统特异性的先验知识来约束搜索空间。
共同局限
基于回归的方法普遍面临三个“老大难”问题:数据要求极高(尤其依赖高时间分辨率的数据)、对先验知识依赖强(可观测性和函数库选择至关重要)、以及高维生物网络中的维度灾难问题。近年来,弱形式和积分形式的稀疏回归方法在一定程度上缓解了噪声放大问题,但依旧存在挑战。
基于网络的方法:灵活近似,但解释性仍是痛点
与回归方法不同,人工神经网络不依赖显式的符号结构,而是直接从数据中捕捉非线性动力学。它们的优势在于表达能力强,能逼近任意复杂映射。但代价也很明显:通常是黑箱,需要大量数据,且解释性有限。
这里重点讨论三类与动力系统最相关的架构:
前馈神经网络是最简单的形式,通过学习从当前状态到下一状态的映射来近似控制方程。它已被用于振荡系统、混沌系统以及基因调控网络等生物学问题。但长轨迹预测中容易出现误差累积,导致预测漂移到物理上不合理的区域。
循环神经网络通过引入记忆环来捕捉时间依赖,适合处理时间序列。它的特例水库计算因为只训练输出权重,降低计算成本的同时保留了表达能力。
自编码器则将高维动力学压缩到低维潜在坐标,特别适合与Koopman理论结合。变分自编码器进一步引入概率结构,有助于发现近似线性的潜在动力学。但潜在维度的选择很关键:维度过低会遗漏关键模态,过高则容易过拟合。
神经网络方法面临的主要挑战是:解释性不足、对架构和超参数高度依赖、以及泛化能力有限(尤其在噪声较大、采样不足的生物数据上)。
分解方法:直接从数据中提取时空模态
分解方法能够更直接地从数据中近似Koopman算子。最常用的方法就是动态模态分解,它最初来自流体动力学,用于从高维数据中提取时空相干结构。
核心思想很简单:给定相邻时间点的系统快照,寻找一个线性算子,尽可能把前一组映射到后一组。这个线性算子就构成了Koopman算子的有限维近似。对于高维系统,可以通过奇异值分解投影到低维空间来使计算可行。
但是,动态模态分解依赖于线性可观测量,这很难充分描述非线性动力学。于是就有了扩展动态模态分解,把数据提升到非线性函数构成的高维特征空间中再执行分解。
在生物场景中,这类方法已被用于神经动力学、微生物生态系统、代谢动力学等研究。但它们在生物环境中仍面临两个主要挑战:需要足够丰富的动力学状态才能得到有意义的近似,以及可解释性也依赖先验知识(提升函数的选择)。
此外,基于延迟嵌入的分解方法也值得一提。根据Takens嵌入定理,即使某些维度不可观测,也可以通过延迟坐标展开隐藏维度。这在生物系统中非常实用——因为部分观测才是常态。
展望:混合方法是未来方向
回顾三类方法,各有各的优势与短板。基于回归的方法可解释性强但难以处理高维数据;神经网络灵活但常是黑箱;分解方法善于提取模态但对动力学多样性和数据质量有要求。因此,未来的趋势已经很清晰:混合方法正在成为主流。
比如,通用微分方程直接把神经网络嵌入机制模型中——已知部分用经典方程描述,未知部分交给神经网络。符号深度学习则是先由图神经网络学习规则,再用符号回归提取方程。CLINE与SINDy的结合,则是先无模型地发现相空间几何特征,再转化为显式方程。而SINDy与自编码器的结合,则允许自编码器压缩高维数据,SINDy在潜在空间中识别控制方程——这在秀丽隐杆线虫运动分析等场景中已经展现了巨大潜力。
最终,数据驱动生物学不会由某一种单一方法主导。未来的模型会结合符号方程的可解释性、神经网络的灵活性以及概率框架的鲁棒性。它们也许永远无法给出“绝对正确”的模型,但可以极其有用。这正是方法学的力量——不仅描述已知内容,更能预测未知现象,从而指导实验、塑造新的生物学理论。
整理 | DrugOne团队
参考资料
Prokop, B., Gelens, L. Data-driven discovery of dynamical models in biology. Nat Rev Phys (2026).
https://doi.org/10.1038/s42254-026-00955-4

