
大语言模型如今已成为AI系统的核心组件,无论是撰写文章、解答数学问题,还是编写代码,单个模型确实表现出色。然而,随着任务日益复杂,需要更精细的分工协作,一个根本性问题逐渐凸显:未来的智能系统,是否必须将单个模型越做越大?抑或,能否像人类社会的组织方式、神经系统的信号传递、或者计算机网络的协作模式那样,通过将多个智能单元连接起来,让它们彼此沟通与协同,从而催生出更强大的整体能力?
围绕这一方向,清华大学姚权铭团队提出了一种全新的AI系统组织架构——Language Model Networks。相关论文已被ICML 2026接收,作者为Shiguang Wu、Yaqing Wang和Quanming Yao。他们设计了一套名为LMNet的框架,使语言模型之间能够通过稠密、可微、可训练的方式相互通信,这相当于从“单模型智能”迈向“模型网络智能”的一次系统性探索。

论文标题:Language Model Networks: Supervision-Efficient Learning through Dense Communication
论文链接:https://arxiv.org/abs/2505.12741
一、从“更大的模型”到“更会协作的系统”
过去几年,大模型研究的主旋律几乎始终围绕“规模”展开:参数更多、数据更大、上下文更长、训练策略更强。规模扩张的确带来了能力跃迁,也推动了大模型在实际场景中的加速落地。
但事情总有另一面。当模型开始承担那些需要持续推理、多种能力穿插、不断切换工具并验证结果的任务时,单体模型的边界感越来越明显:规划、推理、检索、验证、调用工具、生成结果……所有压力都集中在单一模型内部,分工与专业化无从谈起。
Language Model Networks提供了一种不同的思路:预训练语言模型不一定非要做成独立的预测器,而完全可以被当作可复用的计算节点。真正值得关注的,是这些节点之间的连接、通信与协同——它们本身就是智能能力的重要来源。
换句话说,AI的能力不仅取决于单模型有多强,更取决于模型被如何组织起来。
二、为什么仅靠自然语言“聊天”还不够
目前,在大模型推理阶段的test-time scaling、多模型协作以及多智能体系统中,模型之间通常通过自然语言对话。一个模型生成一段文字,另一个模型读进去再继续推理。这种方式直观、便于人类理解,用来快速搭建原型颇为顺手。
但从机器通信的角度看,自然语言并非最高效的媒介。语言是离散的、符号化的,模型之间每交流一次,都要经历“内部表示→文本→内部表示”的转换过程。这一来回,信息难免损失,更重要的是梯度传播被打断——整个系统难以直接根据最终任务目标进行端到端优化。
模型协作中真正关键的,不光是“提示词怎么写”,而是“通信这件事本身能不能被学习”。

图 1 :离散的自然语言对于模型间通信是非必需的,且传递信息效率低、难以优化;LMNet 利用稠密连续向量进行模型间通信。
三、LMNet:在语言模型之上构建“模型级神经网络”
LMNet的设计可以这样理解:在语言模型的上层,再搭建一个“模型级的神经网络”。
普通神经网络中,神经元通过连接形成层级;而在LMNet中,预训练语言模型被当作可复用的计算节点,模型之间的通信模块则构成可训练的连接边。具体实现上,系统最外层的输入和输出仍然是自然语言,但中间节点之间尽量绕开反复的文本生成与理解,直接交换连续的稠密向量。这样一来,模型之间的沟通就不再完全依赖人工设计的提示词、角色分工或者中间推理文本,而是在训练过程中自动学习出来。

图 2 :LMNet 模型网络结构示意图。语言模型作为节点,通信模块(如 attention block)作为边,形成可端到端优化的模型网络。
四、让通信从人工设计变为自己学习
这项工作的关键意义在于,它把“通信”从外部设计的规则,提升为系统内部可以被优化的能力。系统不需要有人去标注每个中间节点该说什么,也不需要提前规定每个模型必须扮演什么角色。只要最终任务有监督信号,LMNet就能通过梯度优化自动调整模型节点之间的信息流,学会“谁该向谁传递什么信息”。
从这个角度看,LMNet更像是一次关于“智能组织方式”的探索。它把大语言模型从单个预测器,推进为可连接、可组合、可协同的网络化组件;也让AI系统设计的焦点从“怎么提示一个模型”延伸到“怎么组织一组模型”。
这个思路与测试时推理、多智能体协作、工作流优化等方向有天然联系,但LMNet更激进了一步:它直接针对底层通信机制本身,让通信变成可微、可训练、可优化的系统能力。
五、实验数字:小额外成本下的能力提升
实验结果表明,LMNet在通用能力提升和有限监督适应两个场景中都表现不错。
在通用能力提升实验中,研究团队以Qwen2.5-0.5B作为基础语言模型节点,构建了1/4/4/4/1结构(共4层通信,14个节点共享参数),参数总量约1.14B。额外训练token少于0.1T,训练成本不到基础模型预训练成本的0.2%——仅凭这点额外开销,LMNet在多个通用任务上取得了明显的性能提升(图3)。

图 3:相近参数规模 LLM 的性能比较
另外,如果拿单个模型做test-time scaling来比较,在相近的推理时间开销下,LMNet依然具备明显优势(图4)。

图 4:Qwen2.5-0.5B 不同的 test-time scaling 方法的性能比较
在有限监督适应场景中,研究团队构造了更小型的LMNet,并冻结节点大模型的参数,只训练边模型的参数,以避免微调大量参数导致的过拟合。与其他SFT(包括PEFT方法)相比,LMNet依然展现了明显的性能优势(图5、图6)。

图 5:以不同的 LLM 为底座/节点,在 MMLU 上微调并测试的性能比较

图 6:在 E2E 数据集上用不同的 PEFT 方法微调 GPT2-M 并测试的性能比较
这些数字当然不是全文最重要的部分,但它们传递了一个清晰的信号:模型之间的可学习通信,确实可能成为提升系统能力的一条有效路径。LMNet的价值不只在于某个benchmark的提升,更在于它证明了那个方向——通信方式本身可以被学习,模型网络可以从最终任务的监督中自动形成更高效的信息流。
六、从单体智能走向网络智能
这项工作指向了一个可能的未来:下一代AI系统未必是一个不断膨胀的单个模型,而可能是一个由多个模型、工具、记忆和反馈模块共同构成的可学习网络。
在这样的系统里,智能不只来自单个模块的能力,也来自模块之间如何连接、如何交流、如何共同适应任务。
“沟通即智能”不是一句简单的口号,而是对未来AI系统形态的一种判断。当语言模型开始学会自己“组网”,人工智能的竞争将从单体模型的能力比拼,转向系统组织能力、通信效率和协同学习能力的全面较量。
值得注意的是,这个方向已经受到国际前沿研究的持续关注。比如近期的Google DeepMind和AWS Agentic AI都在从不同角度探索类似思路——模型间的通信媒介、通信拓扑和可学习接口,正在成为构建下一代AI系统的关键技术支点。
