循环语言模型：提升参数效率的潜在推理新范式

首页

热心网友

转载

2025-11-04

Ouro模型在参数效率方面表现出卓越性能，其1.4B和2.6B参数规模的模型表现足以媲美甚至超越12B参数的SOTA模型。这种效率提升主要得益于创新的循环架构设计，使得相同的参数能够被重复利用，从而在固定参数预算内实现更深的计算深度。

当前主流大语言模型（LLM）通常通过思维链（Chain-of-Thought, CoT）等显式文本生成方式进行"思考"，这种方法将推理过程延后到训练后阶段，未能充分利用预训练数据。本文介绍了一个名为Ouro的开源预训练循环语言模型（LoopLM）系列，其命名灵感来源于象征循环的衔尾蛇（Ouroboros），通过三项关键创新将推理能力直接构建到预训练阶段：在潜在空间中进行迭代计算；基于熵正则化目标函数实现自适应深度分配；以及扩展至7.7万亿token的超大规模训练。

核心创新与技术亮点

Ouro模型在参数效率方面的突破令人瞩目，其核心优势在于独特的循环架构设计。这种设计使得参数能够被循环复用，从而在不增加参数量的前提下显著提升模型的计算深度与推理能力。

如上图所示，Ouro采用参数共享的循环架构（左），使得1.4B和2.6B参数规模的模型（红色）能够与更大规模的基础模型相媲美甚至实现超越（中、右）。

循环语言模型（LoopLM）架构

LoopLM的核心思想是通过递归方式重复应用共享权重的层，在固定参数预算内实现动态计算。与标准Transformer不同，LoopLM将L层Transformer块视为可重复应用T次的计算单元。

这种设计实现了计算深度与参数数量的解耦，模型可以通过增加递归步数（T）来增强推理能力，而无需增加参数量。

自适应计算与早退机制

Ouro模型的另一项创新是自适应计算深度分配机制。通过学习得到的早退门控函数，模型能够根据输入复杂度动态决定所需的递归步骤。

如图所示，训练阶段（左）模型应用N个共享权重层进行n次递归步骤。每一步i，退出门预测概率pi，语言建模头计算任务损失。训练目标结合了所有步骤的期望任务损失与熵正则化项。推理阶段（右），模型可以基于累积分布函数（CDF）提前退出，为简单输入分配较少步骤，为复杂输入分配更多步骤。

熵正则化训练目标

为了让模型学会何时应该退出递归计算，作者设计了一个熵正则化的训练目标。

其中第一项是期望任务损失，第二项是退出步骤分布的熵正则化。与此前工作不同，Ouro采用均匀先验而非几何先验，这使得模型能够不受偏见地探索所有可能的计算深度。

实验结果与性能分析

参数效率

Ouro模型在参数效率方面表现卓越，1.4B参数模型（4次递归）性能可匹配4B标准Transformer，2.6B参数模型可媲美8B标准模型，实现了2-3倍的参数效率提升。

如图所示，Ouro-Thinking模型在多项数学和科学数据集上与更大规模的基线模型相当或超越。

递归深度与性能关系

研究发现，增加递归步数通常会提升模型性能，但这种提升在达到训练深度（T=4）后会出现饱和。有趣的是，即使在超出训练配置的步数（T>4）时，模型的安全性仍会持续提高，表明迭代精炼过程对安全对齐有积极影响。

知识容量与操作能力

通过控制实验，研究者发现LoopLM的优势并非来自增加的知识存储容量（每参数约2比特，与非循环模型相同），而是来自显著增强的知识操作能力。在需要事实组合和多跳推理的任务上，LoopLM表现出明显优势。

如图所示，左侧展示了循环模型与标准模型在知识容量上的相似性，而右侧表格展示了循环模型在知识操作任务上的优势。

安全性、忠实度与一致性

安全性

研究结果表明，随着递归步数的增加，Ouro模型在HEx-PHI基准测试上的有害性降低，这一趋势甚至在超出训练配置的步数（5-8步）时仍然持续。

如图所示，随着递归步数增加，模型在HEx-PHI上的有害性得分和有害率均显著下降。

推理忠实度

与标准LLM的思维链不同，LoopLM的潜在推理过程与最终答案因果关系相关。研究者通过在Quora Question Pairs数据集上的实验发现，随着递归深度增加，模型的决策会发生实质性变化，表明内部推理确实影响最终输出。

如图所示，左侧展示了不同递归步骤中线性探针的ROC AUC，右侧热图显示了不同步骤间预测标签的一致性。这种系统性的不一致表明，模型在递归深化过程中确实在更新其决策。

技术实现细节

训练流程

Ouro模型采用多阶段训练流程，包括预热、稳定训练、CT退火、长上下文训练和指令调优等阶段，总计在7.7万亿token上进行训练。

如图所示，训练过程从共同的预热阶段开始，然后分为两个流：一个保持1.3B参数（产生Ouro-1.4B），一个上循环至2.6B参数（产生Ouro-2.6B）。两个流独立经历相同的后续四阶段训练过程，最后通过推理SFT阶段创建Ouro-Thinking模型。

KV缓存共享策略

为解决循环架构导致的内存开销问题，研究者探索了KV缓存重用策略，发现在解码阶段，仅保留最后一步的KV缓存或所有步骤的平均KV缓存，可以在几乎不损失性能的情况下将内存需求降低4倍。

未来展望与应用前景

循环语言模型（LoopLM）为大语言模型的发展提供了一个新的扩展方向，超越了传统的参数规模和数据量两个维度。未来研究可以从以下几个方面进一步探索：

递归机制的优化：探索更复杂的递归结构，如条件递归或混合递归，进一步提升模型的推理能力和参数效率。

自适应深度分配的精细化：开发更精确的门控机制，能够在token级别动态分配计算资源，为不同类型输入内容提供最优的计算深度。

多模态LoopLM：将循环架构扩展到多模态领域，探索在视觉-语言任务中的应用潜力，特别是需要多步推理的复杂场景理解任务。

边缘设备部署：利用LoopLM的参数效率优势，开发适用于资源受限设备的高效推理系统，实现本地化的复杂推理能力。

结合神经符号方法：将LoopLM与神经符号推理系统结合，探索如何利用循环结构更好地实现符号操作和逻辑推理。

这些方向不仅能够进一步提升模型性能，还有望在实际应用中解决计算资源限制问题，使高级推理能力更广泛地应用于各种场景。

结论

Ouro循环语言模型展示了通过架构创新实现参数效率提升的巨大潜力。通过在预训练阶段直接构建迭代计算和自适应深度分配机制，LoopLM在固定参数预算内实现了卓越的推理性能。这种方法不仅提高了模型效率，还增强了安全性和推理忠实度，为未来大语言模型的发展提供了新的思路。

热门推荐

系统平台

银河麒麟系统SSH公钥登录配置与安全远程连接指南

在麒麟操作系统上配置SSH公钥登录，不仅能免去每次输入密码的繁琐，更能显著增强远程连接的安全性。整个过程并不复杂，核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法，涵盖从自动化部署到手动配置，助你轻松完成麒麟系统SSH密钥登录设置。一、使用ssh-keygen与ssh-c

热心网友

05.15

系统平台

银河麒麟系统登录循环故障解决方法与桌面修复指南

登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。在银河麒麟操作系统中输入密码后，屏幕一闪又回到登录界面，这种“登录循环”问题确实令人困扰。这通常并非硬件故障，而

热心网友

05.15

web3.0

GUSD稳定币详解：项目背景、核心用途与投资风险全解析

GUSD是一种与美元1:1锚定的合规稳定币，由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物，主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞，理解其作为传统金融与加密市场桥梁的定位与局限。

热心网友

05.15

系统平台

Win11如何设置默认音频输出设备与调整音量

在Windows 11系统中，确保系统音频稳定输出到指定设备（如已连接的耳机或已配对的蓝牙音箱），核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案，实现即时切换或永久性配置，彻底解决声音输出错乱

热心网友

05.15

宏胜集团高管变动与业务外包调整深度解析

宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职，该消息已获接近集团人士证实。与此同时，集团启动了部分非生产业务的外包运作，显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期，旨在聚焦核心业务并

热心网友

05.15