字节Seed团队开源循环模型Ouro：预训练即具备自主推理能力，Bengio团队参与研发

首页

热心网友

转载

2025-11-05

字节 Seed 团队与多家研究机构联合推出了名为 Ouro 的新型预训练模型，它属于"循环语言模型"(Looped Language Models)这一创新类别，其命名灵感来源于象征循环与自我吞噬的"衔尾蛇"(Ouroboros)神话意象。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

当前大多数语言模型依赖显式的文本生成过程（例如"思维链"）来进行"思考"训练。这种策略将推理任务推迟到训练完成后的阶段，未能充分利用预训练数据中蕴藏的潜力。

为突破这一局限，字节 Seed 团队联合多方推出了 Ouro，这是循环语言模型技术路线下的突破性成果。其名称取自象征循环与自我更新的古老符号"衔尾蛇"(Ouroboros)。

Ouro 通过三个创新路径实现了突破：(i)在潜在空间进行迭代计算，(ii)采用熵正则化目标实现学习型深度分配，以及(iii)扩展至7.7T tokens的训练数据规模，从而将推理能力直接构建于预训练阶段。这些设计使得模型能在预训练过程中直接学习和构建推理能力，而非仅仅依赖后期微调。

论文标题：Scaling Latent Reasoning via Looped Language Models论文地址：https://arxiv.org/pdf/2510.25741项目主页：https://ouro-llm.github.io/HuggingFace：https://huggingface.co/collections/ByteDance/ouro

通过对比较验，研究发现 Ouro 的性能提升并非源于知识存储量的增加，而是得益于其更高效的知识操控与推理能力。进一步分析表明，Ouro 的潜在推理过程相较于标准 LLM，更贴近真实的人类推理机制。

Ouro 循环语言模型的性能表现。（左）参数共享的循环架构。（中与右）雷达图比较了 Ouro 1.4B 与 2.6B 模型（均采用4个循环步，红色）与独立的 Transformer 基线模型。我们的模型表现出强劲性能，可与更大规模的基线模型相媲美，甚至在部分任务上实现超越。

最终，Ouro 的1.4B和2.6B参数规模的LoopLM，在几乎所有基准测试中都达到了与4B和8B标准 Transformer 相当的性能，实现了2-3倍的参数效率提升，展现了其在数据受限时代作为一种新型扩展路径的潜力。

在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型（如Qwen3和DeepSeek-Distill）进行对比。Ouro-1.4B-Thinking R4 的性能可与4B规模模型相媲美，而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到甚至超越了8B规模模型。

此外，LoopLM 架构在HEx-PHI基准上显著降低了有害性，且随着循环步数（包括外推步）增加，模型的安全性进一步提升。与传统的CoT方法不同，研究者的迭代隐变量更新机制产生的是因果一致的推理过程，而非事后的合理化解释。

循环架构

LoopLM 架构的设计灵感来源于"通用 Transformer"。其核心思路是在固定的参数预算内实现"动态计算"。具体而言，该架构包含一个由N个共享权重层组成的"层堆栈"。

在模型的前向传播过程中，这个共享的层堆栈会被循环应用多次，即经历多个"循环步骤"。这种设计将模型的计算规模从"参数数量"解耦到了"计算深度"。

该架构的关键特性是其自适应计算能力。它集成了一个学习到的"退出门"，当模型处理输入时：简单输入可能会在经过较少循环步骤后就提前退出，从而节省计算资源；复杂输入则会被自然地分配更多迭代次数，以进行更深层的处理。

这种迭代重用被视为一种"潜在推理"。与CoT在外部生成显式文本步骤不同，LoopLM 是在模型的内部隐藏状态中构建了一个"潜在思维链"。每一次循环都是对表征的逐步精炼，从而在不增加参数的情况下提升了模型的知识操纵能力。

训练流程

Ouro 的训练流程是一个多阶段过程，总共使用了7.7T tokens的数据。

如图4所示，该流程始于一个通用的预热阶段，随后是使用3T token的初始稳定训练阶段。在此之后，模型通过"upcycling"策略分支为1.4B和2.6B两种参数规模的变体。

两种变体均独立经历后续四个相同的训练阶段：第二次稳定训练（3T token）、CT退火（CT Annealing, 1.4T token）、用于长上下文的LongCT（20B token）以及中途训练（Mid-Training, 300B token）。

这个过程产生了Ouro-1.4B和Ouro-2.6B两个基础模型。最后，为了强化特定能力，模型还额外经历了一个专门的推理监督微调阶段，以创造出专注于推理的 Ouro-Thinking 系列模型。

在训练稳定性方面，团队发现最初使用8个循环步骤会导致损失尖峰等不稳定问题，因此在后续阶段将循环步数减少到4，以此在计算深度和稳定性之间取得了平衡。

为了让模型学会何时"提前退出"，训练流程采用了新颖的两阶段目标：

循环语言模型架构概览。

左图为训练阶段。在训练过程中，模型使用共享参数的N层层叠结构，并执行n个循环步骤（R=1到R=n）。在每个循环步骤i，一个退出门预测退出概率pᵢ，而语言建模头Lᵢ则计算对应的任务损失。训练目标函数结合了所有循环步骤的期望任务损失，并加入熵正则化项H（p₁,…,pₙ），以鼓励模型探索不同的计算深度。

右图为推理阶段。在推理时，模型可根据由退出概率计算得到的累积分布函数（CDF）提前终止。当超过设定阈值时，模型将在第i个循环步骤停止，从而实现自适应计算：为复杂输入分配更多循环步数，同时在简单输入上保持高效推理。图中的虚线表示模型在提前退出后可能被跳过的后续步骤。

来源:https://www.51cto.com/article/828886.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：他发明万亿AGI却潦倒破产，如今现状揭秘下一篇：MCP网关实战：超级AI开发助手搭建指南

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08