首页 游戏 软件 资讯 排行榜 专题
首页
AI
循环语言模型:提升参数效率的潜在推理新范式

循环语言模型:提升参数效率的潜在推理新范式

热心网友
76
转载
2025-11-04

Ouro模型在参数效率方面表现出卓越性能,其1.4B和2.6B参数规模的模型表现足以媲美甚至超越12B参数的SOTA模型。这种效率提升主要得益于创新的循环架构设计,使得相同的参数能够被重复利用,从而在固定参数预算内实现更深的计算深度。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当前主流大语言模型(LLM)通常通过思维链(Chain-of-Thought, CoT)等显式文本生成方式进行"思考",这种方法将推理过程延后到训练后阶段,未能充分利用预训练数据。本文介绍了一个名为Ouro的开源预训练循环语言模型(LoopLM)系列,其命名灵感来源于象征循环的衔尾蛇(Ouroboros),通过三项关键创新将推理能力直接构建到预训练阶段:在潜在空间中进行迭代计算;基于熵正则化目标函数实现自适应深度分配;以及扩展至7.7万亿token的超大规模训练。

核心创新与技术亮点

Ouro模型在参数效率方面的突破令人瞩目,其核心优势在于独特的循环架构设计。这种设计使得参数能够被循环复用,从而在不增加参数量的前提下显著提升模型的计算深度与推理能力。

如上图所示,Ouro采用参数共享的循环架构(左),使得1.4B和2.6B参数规模的模型(红色)能够与更大规模的基础模型相媲美甚至实现超越(中、右)。

循环语言模型(LoopLM)架构

LoopLM的核心思想是通过递归方式重复应用共享权重的层,在固定参数预算内实现动态计算。与标准Transformer不同,LoopLM将L层Transformer块视为可重复应用T次的计算单元。

这种设计实现了计算深度与参数数量的解耦,模型可以通过增加递归步数(T)来增强推理能力,而无需增加参数量。

自适应计算与早退机制

Ouro模型的另一项创新是自适应计算深度分配机制。通过学习得到的早退门控函数,模型能够根据输入复杂度动态决定所需的递归步骤。

如图所示,训练阶段(左)模型应用N个共享权重层进行n次递归步骤。每一步i,退出门预测概率pi,语言建模头计算任务损失。训练目标结合了所有步骤的期望任务损失与熵正则化项。推理阶段(右),模型可以基于累积分布函数(CDF)提前退出,为简单输入分配较少步骤,为复杂输入分配更多步骤。

熵正则化训练目标

为了让模型学会何时应该退出递归计算,作者设计了一个熵正则化的训练目标。

其中第一项是期望任务损失,第二项是退出步骤分布的熵正则化。与此前工作不同,Ouro采用均匀先验而非几何先验,这使得模型能够不受偏见地探索所有可能的计算深度。

实验结果与性能分析

参数效率

Ouro模型在参数效率方面表现卓越,1.4B参数模型(4次递归)性能可匹配4B标准Transformer,2.6B参数模型可媲美8B标准模型,实现了2-3倍的参数效率提升。

如图所示,Ouro-Thinking模型在多项数学和科学数据集上与更大规模的基线模型相当或超越。

递归深度与性能关系

研究发现,增加递归步数通常会提升模型性能,但这种提升在达到训练深度(T=4)后会出现饱和。有趣的是,即使在超出训练配置的步数(T>4)时,模型的安全性仍会持续提高,表明迭代精炼过程对安全对齐有积极影响。

知识容量与操作能力

通过控制实验,研究者发现LoopLM的优势并非来自增加的知识存储容量(每参数约2比特,与非循环模型相同),而是来自显著增强的知识操作能力。在需要事实组合和多跳推理的任务上,LoopLM表现出明显优势。

如图所示,左侧展示了循环模型与标准模型在知识容量上的相似性,而右侧表格展示了循环模型在知识操作任务上的优势。

安全性、忠实度与一致性

安全性

研究结果表明,随着递归步数的增加,Ouro模型在HEx-PHI基准测试上的有害性降低,这一趋势甚至在超出训练配置的步数(5-8步)时仍然持续。

如图所示,随着递归步数增加,模型在HEx-PHI上的有害性得分和有害率均显著下降。

推理忠实度

与标准LLM的思维链不同,LoopLM的潜在推理过程与最终答案因果关系相关。研究者通过在Quora Question Pairs数据集上的实验发现,随着递归深度增加,模型的决策会发生实质性变化,表明内部推理确实影响最终输出。

如图所示,左侧展示了不同递归步骤中线性探针的ROC AUC,右侧热图显示了不同步骤间预测标签的一致性。这种系统性的不一致表明,模型在递归深化过程中确实在更新其决策。

技术实现细节

训练流程

Ouro模型采用多阶段训练流程,包括预热、稳定训练、CT退火、长上下文训练和指令调优等阶段,总计在7.7万亿token上进行训练。

如图所示,训练过程从共同的预热阶段开始,然后分为两个流:一个保持1.3B参数(产生Ouro-1.4B),一个上循环至2.6B参数(产生Ouro-2.6B)。两个流独立经历相同的后续四阶段训练过程,最后通过推理SFT阶段创建Ouro-Thinking模型。

KV缓存共享策略

为解决循环架构导致的内存开销问题,研究者探索了KV缓存重用策略,发现在解码阶段,仅保留最后一步的KV缓存或所有步骤的平均KV缓存,可以在几乎不损失性能的情况下将内存需求降低4倍。

未来展望与应用前景

循环语言模型(LoopLM)为大语言模型的发展提供了一个新的扩展方向,超越了传统的参数规模和数据量两个维度。未来研究可以从以下几个方面进一步探索:

递归机制的优化:探索更复杂的递归结构,如条件递归或混合递归,进一步提升模型的推理能力和参数效率。

自适应深度分配的精细化:开发更精确的门控机制,能够在token级别动态分配计算资源,为不同类型输入内容提供最优的计算深度。

多模态LoopLM:将循环架构扩展到多模态领域,探索在视觉-语言任务中的应用潜力,特别是需要多步推理的复杂场景理解任务。

边缘设备部署:利用LoopLM的参数效率优势,开发适用于资源受限设备的高效推理系统,实现本地化的复杂推理能力。

结合神经符号方法:将LoopLM与神经符号推理系统结合,探索如何利用循环结构更好地实现符号操作和逻辑推理。

这些方向不仅能够进一步提升模型性能,还有望在实际应用中解决计算资源限制问题,使高级推理能力更广泛地应用于各种场景。

结论

Ouro循环语言模型展示了通过架构创新实现参数效率提升的巨大潜力。通过在预训练阶段直接构建迭代计算和自适应深度分配机制,LoopLM在固定参数预算内实现了卓越的推理性能。这种方法不仅提高了模型效率,还增强了安全性和推理忠实度,为未来大语言模型的发展提供了新的思路。

相关资源

模型主页:https://ouro-llm.github.io/

论文链接:https://arxiv.org/abs/2510.25741

来源:https://www.51cto.com/article/828659.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Python循环的六种核心方法与实战示例
科技数码
Python循环的六种核心方法与实战示例

无论是处理列表、字符串,还是进行复杂的算法实现,掌握多种高效的循环方法至关重要。本文将为你详细介绍Python循环最常用的六种方法。 循环是实现重复操作的关键工具,它能够让程序高效地处理大量数据或重

热心网友
12.30
循环语言模型:提升参数效率的潜在推理新范式
AI
循环语言模型:提升参数效率的潜在推理新范式

Ouro模型展现了卓越的参数效率,其1 4B和2 6B参数规模的模型性能可以匹配甚至超越12B参数的SOTA模型。这种效率提升主要源于模型的循环架构设计,使得相同的参数可以被重复使用,从而在固定参数

热心网友
11.04
全球首款可逆计算芯片问世,节能30%实现能量循环
电脑教程
全球首款可逆计算芯片问世,节能30%实现能量循环

9月24日消息,据媒体报道,在算力需求爆炸式增长的今天,数据中心的能耗与散热问题日益严峻。然而,一项来自英国研究团队的新突破——名为“冰河”(Ice River)的实验性芯片,有望为这一挑战带来全新

热心网友
09.24
华硕主板供电设计及稳定性提升实用知识
电脑教程
华硕主板供电设计及稳定性提升实用知识

华硕主板供电设计的核心在于vrm方案与用料,而非单纯追求数量。1 供电相数只是衡量标准之一,真正的关键在于每相所使用的mosfet、电感和电容的品质;2 高端型号采用digi+

热心网友
07.27
惠普笔记本电脑电池校准及性能恢复方法分享
电脑教程
惠普笔记本电脑电池校准及性能恢复方法分享

惠普笔记本电池续航变短是正常现象,主要由电池老化和使用习惯导致。锂离子电池的寿命与充放电循环次数和环境温度密切相关,高温、频繁深度充放电会加速其老化。校准无法恢复物理容量,但能通过

热心网友
07.27

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

mysql数据库主从延迟严重如何监控与解决_分析从库同步线程状态
数据库
mysql数据库主从延迟严重如何监控与解决_分析从库同步线程状态

MySQL主从延迟:别被“0延迟”骗了,这才是真实监控与排查指南 说起MySQL主从延迟,很多人的第一反应就是去查SHOW SLA VE STATUS里的那个Seconds_Behind_Master。但经验告诉我们,这个最显眼的数字,往往也是最会“撒谎”的。它明明显示为0,业务侧却反馈数据没同步过

热心网友
04.23
mysql如何利用锁函数实现应用级锁定_mysql get_lock函数实践
数据库
mysql如何利用锁函数实现应用级锁定_mysql get_lock函数实践

MySQL GET_LOCK():一个被误解的“分布式锁”工具 MySQL GET_LOCK() 能不能当分布式锁用 开门见山地说,直接把它当作生产级的分布式锁来用,风险极高。这个函数的设计初衷,其实是为了在单个MySQL实例内部,进行一些轻量级的协作控制。为什么这么说?原因很具体:首先,GET_L

热心网友
04.23
mysql如何查看当前执行的进程_使用show processlist查看状态
数据库
mysql如何查看当前执行的进程_使用show processlist查看状态

mysql如何查看当前执行的进程_使用show processlist查看状态 show processlist 返回的 State 字段到底代表什么 首先得澄清一个普遍的误解:State 字段显示的可不是什么“进程状态”,它真正揭示的,是当前线程在执行 SQL 时,其内部正处于哪个**具体的工作阶

热心网友
04.23
屎币与狗狗币的游戏规则,从迷因到市场的生存逻辑
web3.0
屎币与狗狗币的游戏规则,从迷因到市场的生存逻辑

在加密货币那个充满野性与想象力的世界里,“屎币”(Shiba Inu)和狗狗币(Dogecoin)绝对是两个无法被忽视的“异类”。它们从网络迷因中诞生,因社区狂欢而崛起,最终在残酷的市场博弈中,演化出了一套属于自己的独特生存法则。这套法则既包含了加密货币的底层逻辑,又被“去中心化”、“社区驱动”这些

热心网友
04.23
mysql如何限制特定IP的访问权限_配置GRANT与防火墙策略
数据库
mysql如何限制特定IP的访问权限_配置GRANT与防火墙策略

MySQL访问控制:GRANT与防火墙的协同策略 MySQL GRANT 语句中指定 IP 时,为什么 localhost 和 127 0 0 1 不等价? 这里有个关键细节常被忽略:MySQL的用户账户其实是一个二元组,由 user @ host 共同构成。其中, localhost 是一个特殊标

热心网友
04.23