循环神经网络计算能力的设计原则解析

时间：2026-06-29 17:37

通过系统实验发现，循环神经网络中局部短环（2-环和3-环）是决定计算能力的关键结构，其存在显著提升性能并构成最小求解架构。添加稀疏连接的中间神经元可大幅改善大型网络的计算表现。少量结构统计量即可准确预测网络性能。

揭示循环神经网络计算能力背后的结构设计原则

Identifying structural design principles shaping the computational abilities of recurrent neural networks

https://arxiv.org/pdf/2606.23874

摘要

神经网络的架构如何塑造其计算能力，这个问题一直是神经科学与机器学习领域绕不开的核心挑战。尽管我们已经在特定电路与特定计算之间建立了一些联系，也对广义网络类别的表达能力找到了理论边界，但要把有限网络的结构与其实际计算能力直接挂钩，仍然缺乏一套普遍适用的原则。这恰恰是本文要切入的缺口。

我们通过一个大规模实验来填补这个缺口：训练大量不同结构的循环神经网络，让它们去计算一大批布尔函数，然后考察连接模式如何影响性能。对于小型网络，我们构建了一个完整的“网络-函数”性能目录。结果很明确：不同架构之间的计算能力差异巨大，大多数网络表现平平，大多数函数则难以攻克。但有意思的是，一旦网络中间出现局部的2-环或3-环，计算能力就会显著跃升——事实上，拥有这些短环的网络往往是能解决特定函数的最小架构。进一步分析表明，只用少量的结构统计量就能准确预测网络的性能。

扩展到大型网络时，情况更加严峻：典型网络连随机选择的函数都无法逼近。不过，一个受生物启发的改动带来了戏剧性的转变——在稀疏连接的中间神经元上做文章。向网络中添加少量这样的中间神经元，哪怕连接很稀疏，也能大幅提升计算能力。而且与小型网络一致，短环在这里同样是性能的关键推手，效果远超那些无环或仅匹配可达性的对照组。综合来看，我们的发现将局部环确立为一条连接神经结构与计算能力的设计原则，同时也提供了一个通用框架，用来探索计算网络中结构-功能之间的深层关系。

1 引言

真实网络的架构常常携带着功能设计的烙印。比如幂律或对数正态度分布普遍出现在生物、社会或语言网络中，赋予它们对抗错误和故障的鲁棒性[1,2]。这些结构其实可以通过偏好依附、空间分支和竞争等相对简单的发育过程来解释[3,4]。同样，在生物和工程网络中，一些小型子网络模体出现的频率远超随机预期[5]，并且已经被与特定的计算角色联系起来[6]。生物神经网络[7,8]和人工神经网络[9,10]在监督学习、无监督学习或强化学习中展现出的卓越计算能力，使它们成为研究结构-功能关系的理想系统。

随着神经回路详细连接图谱（连接组）的重建成为可能[15,16,17]，我们现在可以探索精细结构与其潜在功能之间的关系[18,19]。虽然少数情况下的架构-功能映射已经被解析清楚[20,21,22]，但大多数回路并不具备明显的功能设计特征或对称性。模拟特定连接组可以在某些情境下反映回路功能[23,24]，但这些做法无法提供普遍性的理解。更有趣的是，神经回路架构的生成模型表明，它们可能仅由少量生物和物理特征就能解释[25,26,27,28]。然而，这些构建模块如何影响网络学习执行计算任务的能力，以及某些结构属性如何增强计算表现，目前仍然不清楚。

与生物神经网络典型的循环、稀疏架构及其能量效率不同，受真实神经网络启发的人工神经网络往往大相径庭。许多这类网络依赖高度前馈的架构，关键结构属性包括深度、层宽、激活函数以及全连接层、卷积层或注意力层等专门结构。基础理论工作已经证明，具有指数宽度的前馈神经网络可以逼近任意连续函数[29]，也给出了电路能计算什么的下界和上界[30]，这些甚至已被扩展到某些神经网络模型[31]。深度在决定神经网络能力方面也积累了经验和理论证据[32,33,11]。PAC学习[34]等理论框架试图回答人工神经网络能学习逼近什么。但这些大部分是渐近结果，无法直接转化为有限网络的局部属性如何决定其能力与表达力。对于在许多神经回路中广泛存在的循环网络[35,36]来说，情况尤其棘手——虽然它们的计算能力在理论和经验上都有所探索[37,38,39]，但这些方法更多是从动力学角度而非连接结构角度来表征计算。

对于特定类别的神经元——组合抑制阈值线性网络——网络动力学的性质已被证明可以从结构预测出来[40,41]。不过这些结果只关注动力学性质，并未解决学习详细计算任务的挑战，也尚未推广到其他神经元类别和网络。对脉冲神经网络模型的分析已经识别出能够预测网络架构功能相似性的简单架构特征[26]。理想情况下，我们希望将这些方法整合起来，形成从结构预测功能的普遍准则。

尽管图论和网络科学已经大量探讨了网络结构如何塑造信息流、鲁棒性以及动力学演化[42,43]，但特定图拓扑究竟能执行哪些计算，这个问题受到的关注要少得多。我们采取一种直接的做法：在大量且丰富的计算任务上训练大量网络架构并评估其性能，以此来研究循环神经网络的连接性如何塑造它们能执行的计算任务（图1）。任务空间既庞大又难以精确定义[44]，因此我们聚焦于布尔函数——它们足够多样化，能覆盖广泛的计算需求，而学习任意布尔函数的能力则是对网络容量的严格测试，包括有效拟合随机结构的能力。由于N*N个神经元的不同连接图数量和N*N位上的布尔函数数量都随N呈指数增长，穷举分析仅限于小网络，此时我们可以枚举所有架构和所有任务。对于较大的网络，则采用对网络架构和函数进行采样的方法。结合小网络的穷举分析与更大规模的采样探索，我们希望找到将网络连接性与学习能力联系起来的普遍原则，并理解动力学和信息流的结构约束如何塑造循环网络中的结构-功能关系。

2 结果

由于可能的网络拓扑数量和布尔函数数量使得对大N穷举所有网络不可行，我们首先从小型网络入手——在这里我们可以系统地研究所有可能的网络架构并评估它们的计算能力，然后利用这些洞察去研究大型网络，在大型网络中则必须依靠采样技术。

2.1 计算能力在不同网络间差异巨大

尽管许多网络能力有限、许多函数难以计算，仍有一部分网络展现出高容量。那么问题来了：网络拓扑的哪些特征塑造了它们的计算能力？

2.2 识别塑造网络计算能力的特定连接模式

比较所有

网络类的效用分数和最小求解器分数揭示了几种截然不同的行为（图3E）：许多低效用的网络通常不是任何函数的最小求解器，而一些高效用的网络的最小求解器分数也接近于零——这意味着更稀疏的网络可以复制它们的解，额外的连接是冗余的。一小部分网络类脱颖而出，因为它们的最小求解器分数几乎与效用分数一样高（这是其最小求解器分数的上限）。这些网络类在结构上是高效的：它们解决了许多函数，并且对几乎所有这些函数而言，没有更简单的网络能够胜任。值得注意的是，这些正是拓扑结构包含短循环的网络类，它们在所有性能指标中都表现突出。综合来看，我们要说明的是：局部循环连接性不仅拓宽了网络的功能库，而且是以一种结构上不可约的方式实现的。因此，接下来我们想知道：能否直接从网络结构预测其计算能力？

2.3 从结构预测网络的计算能力

我们直接检查了

网络的不同局部网络结构的计算预测能力。正如预期，连接更多的网络通常效用更高，但在相同的连接密度下，性能方差很大（图4A）。更有意思的是，一些稀疏网络的表现甚至优于密集网络，这验证了连接的排列（而非仅仅数量）决定了计算能力。拥有更多长度为2或3的循环的网络也往往表现更好（图4B-C），而“汇点”——即没有传出连接的神经元，它们无法与网络其余部分共享其计算，只能与读出神经元共享——则会损害性能（图4D）。我们还检查了16种非同构的3节点有向模体中的每一种对网络效用的影响（图4E；模体分解算法见方法部分）。对于每个模体，我们聚合所有包含该模体的网络并比较其效用分布，从而表征特定的局部连接模式如何塑造计算性能。（关于使用准确率进行的类似比较，见补充图S4。）

接下来，我们考察这些结构特征在单独或组合使用时，能多好地预测网络的效用或准确率。在每种情况下，我们训练一个单隐层前馈神经网络来预测这些指标，使用50/50的网络训练/测试划分，并在20次随机划分中重复进行（图4F；见方法）。仅用连接数量进行预测效果很差（图4G），而使用完整的模体分解则几乎达到完美性能（图4H）。引人注目的是，仅结合三个标量特征——连接数量、2-环数量和3-环数量（

）——就捕捉到了组合模体集或完整连接矩阵的大部分预测能力（图4I）。

因此，小型网络的计算能力很大程度上由少量的局部结构统计数据决定，短循环在其中扮演核心角色。接下来，我们转向大型网络：它们的结构如何塑造功能？从小型网络获得的洞察能否适用？

2.4 添加稀疏连接的中间神经元挽救了大型网络的计算性能

这种性能的急剧下降与电路复杂度的经典结果一致：大多数布尔函数需要指数级大的二值门电路来计算[49]，因此在标准的复杂度理论假设下难以学习[50]。这意味着使用匹配规模的循环网络来计算任意布尔函数在本质上可能很困难。或许针对全套布尔函数这一目标存在固有的局限性，不同的网络架构只是“覆盖”了函数空间的不同部分。另一方面，生物神经网络显然依赖更大的架构，并且某些电路设计似乎是针对专门的计算进行优化的。而其他神经回路，比如皮层柱，通常被认为是高度适应性的，能够实现非常不同的功能。

受真实神经网络架构的启发，我们发现一种简单的架构扩展能极大改变网络的能力，并使其克服这些看似困难的函数类别。我们向网络中增加额外的“中间神经元”——那些不直接接收外部输入，但参与循环动力学的神经元（见图5A和图5D中带与不带中间神经元的网络示例）。由此产生的架构在计算性能上表现出显著的提升。随着中间神经元数量的增加，随机采样循环网络的近似准确率迅速提高（图5E）。关键的是，即使对于连接非常稀疏的网络（即那些在没有中间神经元时毫无用处的网络），情况也是如此。有了额外的中间神经元，即使是稀疏网络也能学会计算任意复杂的布尔函数。这一点尤其引人注目，因为所有这些网络都是从Erdős–Rényi模型中采样的，没有强加任何额外的架构结构。

然后我们进一步追问：对连接性施加额外的结构特征能否进一步提高网络容量？我们测试了带有中间神经元的不同类别的网络，并比较了它们的平均近似准确率作为网络大小和连接密度的函数（图6A）。Erdős–Rényi (ER) 网络（对应图5中的那些）随着大小和密度的增加而改善，在

平面上产生了强烈的准确率梯度。值得注意的是，这些ER图包含许多短循环，尤其是3-环，其预期丰度随网络规模增加而迅速增长（图6B）。那么，循环是否是网络性能的关键贡献者？为了检验这一点，我们研究了一组对于每个N值具有匹配连接密度p的有向无环图（DAGs）集合，发现它们在整个大小和密度范围内表现都很差——这意味着去除循环反馈严重限制了计算。然后我们追问，这种失败是否纯粹由缺乏循环引起，或者说循环是否贡献了不同的结构属性，比如通过网络改进的信息传播。为了分离这个因素，我们引入了一个结构化的无环集合（“输入扩展DAG”），强制输入神经元广泛投射到下游中间神经元（见方法）。输入扩展DAG的表现明显优于无约束的DAG，表明刻意确保输入传播可以在没有循环的情况下部分挽救性能，但在大部分参数范围内，它们仍然不如ER网络有效。那么，循环架构的优势是否可以仅由改进的信号传播来解释？

因为我们的循环动力学运行

步，信息在计算期间最多可以遍历三个跳数。因此我们构建了一个“无环可达性”网络集合，该集合明确最大化3步可达性——即在三个有向跳数内从每个输入可达的神经元数量——同时禁止3-环（方法）。如果循环仅仅是高效传播的袋里指标，那么这些网络在匹配的

因此我们追问：通过向ER网络中直接添加更多循环来丰富它们——创建“丰富3-环”集合（方法）——是否能进一步提高性能？答案是肯定的，这与其他类别网络的表现一致（图6C）。而且这种改进在稀疏状态下最为显著，在较高密度下（此时ER网络已经包含许多短循环）会减弱。

3 讨论

通过系统训练数亿对循环神经网络和目标函数，我们映射了网络连接性如何塑造有限循环神经网络的计算能力。主要发现是：大多数布尔函数本质上是难以计算的，大多数循环神经网络架构只能学会其中的一小部分。虽然增加连接性通常能带来性能提升，但连接密度相近的网络之间，计算能力的方差极高。我们的分析表明，长度为2和3的短循环是塑造计算能力的关键因素，它们主导了计算特定函数所需的最小架构，而无环组织和汇点节点则会损害性能。对于小型网络，只需连接数量和短循环数量就能准确预测计算性能。当我们把分析扩展到更多的神经元时，典型网络甚至无法逼近典型函数。但受生物神经网络中中间神经元的启发，添加一组稀疏连接且数量较少的中间神经元就能极大改变大型网络的容量，使其变得极具能力——而在这里，短循环同样预测并提升了计算容量。

这与小网络模体的计算解释一致[5]，但短循环的重要性值得特别强调，因为许多被广泛研究和使用的人工神经网络都是无环电路——从多层感知机[51]到卷积网络[52]再到Transformer[53]。这一点格外有趣：在我们有限且资源受限的网络（反映了众多生物回路的约束）中，局部循环往往是能够计算许多函数的最小架构。一个自然的解释是：循环提供了一种短期记忆的形式，允许信息在网络中持续存在，并在运行期间被反复处理，而非在几次前馈步骤后迅速消散。我们的可达性匹配无环模型未能成功，也支持了这一观点——该模型可以传播信息，但无法保留它。

未来的工作将探索更大的网络，并试图发现超越局部原则的、更精细的架构原则——特别是对于具有稀疏连接中间神经元的高容量连接模式。另一个方向是超越我们在此考虑的两种神经元非线性类别，因为它们可能被证明在性质上完全不同。此外，我们聚焦于

的情况——这是允许处理输入以及网络内部记忆产生复杂依赖关系的最小时间尺度——但更大的T值可能会揭示更长循环动力学的潜力与局限。我们还注意到，虽然布尔函数的选择基于其表达能力与计算易处理性，但其他类别的函数可能会揭示网络空间或函数空间更复杂或更有趣的组织。我们的分析专注于找到能够产生正确计算或其逼近的一组网络权重，但没有考虑由于学习范式或初始条件采样导致的学习成功率的变异性。量化网络在随机初始化下可靠达到工作解决方案的程度，将提供网络设计的另一个维度——区分那些对初始条件敏感的拓扑（意味着相同拓扑但不同连接权重的网络空间景观是崎岖的）与那些高效到对初始条件不敏感的拓扑[54]。此外，其他学习机制可能会揭示更有能力的网络设计，探索更广泛的初始条件，或者替代地，在计算性能的选择压力下进化架构，并观察哪些主导结构会出现[55]。

我们希望本文提出的分析能有益于真实神经回路连接组及其功能的研究，或许还能成为一个探索人工神经网络架构设计的框架。特别是，本文提出的框架使我们能够探究哪些类别的架构对特定类别的计算任务有益——即表征大型且多样化的网络类别的目录矩阵和准确率矩阵的内部结构。固定的随机连接循环网络在仅训练读出层或反馈输入时提供丰富动力学的能力[37,38,56]，为另一个潜在扩展提供了方向：在这些“储备池”中引入结构是否能改善它们的性能或构造。在更偏理论的方向上，未来工作将致力于把我们的发现与直接从连接性推导网络动力学的解析方法联系起来——例如阈值线性网络的图论规则，它们展示了特定模体如何产生特定的动力学状态[40,41]。在连接模体与网络能够执行的计算之间建立严格的关系，对于桥接网络架构、动力学和功能将大有裨益。

来源：https://cloud.tencent.com.cn/developer/article/2700089

神经网络