字节Seed团队开源循环模型Ouro:预训练即具备自主推理能力,Bengio团队参与研发
字节 Seed 团队与多家研究机构联合推出了名为 Ouro 的新型预训练模型,它属于"循环语言模型"(Looped Language Models)这一创新类别,其命名灵感来源于象征循环与自我吞噬的"衔尾蛇"(Ouroboros)神话意象。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
当前大多数语言模型依赖显式的文本生成过程(例如"思维链")来进行"思考"训练。这种策略将推理任务推迟到训练完成后的阶段,未能充分利用预训练数据中蕴藏的潜力。
为突破这一局限,字节 Seed 团队联合多方推出了 Ouro,这是循环语言模型技术路线下的突破性成果。其名称取自象征循环与自我更新的古老符号"衔尾蛇"(Ouroboros)。
Ouro 通过三个创新路径实现了突破:(i)在潜在空间进行迭代计算,(ii)采用熵正则化目标实现学习型深度分配,以及(iii)扩展至7.7T tokens的训练数据规模,从而将推理能力直接构建于预训练阶段。这些设计使得模型能在预训练过程中直接学习和构建推理能力,而非仅仅依赖后期微调。

论文标题:Scaling Latent Reasoning via Looped Language Models论文地址:https://arxiv.org/pdf/2510.25741项目主页:https://ouro-llm.github.io/HuggingFace:https://huggingface.co/collections/ByteDance/ouro
通过对比较验,研究发现 Ouro 的性能提升并非源于知识存储量的增加,而是得益于其更高效的知识操控与推理能力。进一步分析表明,Ouro 的潜在推理过程相较于标准 LLM,更贴近真实的人类推理机制。

Ouro 循环语言模型的性能表现。(左)参数共享的循环架构。(中与右)雷达图比较了 Ouro 1.4B 与 2.6B 模型(均采用4个循环步,红色)与独立的 Transformer 基线模型。我们的模型表现出强劲性能,可与更大规模的基线模型相媲美,甚至在部分任务上实现超越。
最终,Ouro 的1.4B和2.6B参数规模的LoopLM,在几乎所有基准测试中都达到了与4B和8B标准 Transformer 相当的性能,实现了2-3倍的参数效率提升,展现了其在数据受限时代作为一种新型扩展路径的潜力。

在高级推理基准测试中的表现。Ouro-Thinking 系列模型与强大的基线模型(如Qwen3和DeepSeek-Distill)进行对比。Ouro-1.4B-Thinking R4 的性能可与4B规模模型相媲美,而 Ouro-2.6B-Thinking R4 在多个数学与科学数据集上的表现达到甚至超越了8B规模模型。
此外,LoopLM 架构在HEx-PHI基准上显著降低了有害性,且随着循环步数(包括外推步)增加,模型的安全性进一步提升。与传统的CoT方法不同,研究者的迭代隐变量更新机制产生的是因果一致的推理过程,而非事后的合理化解释。
循环架构
LoopLM 架构的设计灵感来源于"通用 Transformer"。其核心思路是在固定的参数预算内实现"动态计算"。具体而言,该架构包含一个由N个共享权重层组成的"层堆栈"。
在模型的前向传播过程中,这个共享的层堆栈会被循环应用多次,即经历多个"循环步骤"。这种设计将模型的计算规模从"参数数量"解耦到了"计算深度"。
该架构的关键特性是其自适应计算能力。它集成了一个学习到的"退出门",当模型处理输入时:简单输入可能会在经过较少循环步骤后就提前退出,从而节省计算资源;复杂输入则会被自然地分配更多迭代次数,以进行更深层的处理。
这种迭代重用被视为一种"潜在推理"。与CoT在外部生成显式文本步骤不同,LoopLM 是在模型的内部隐藏状态中构建了一个"潜在思维链"。每一次循环都是对表征的逐步精炼,从而在不增加参数的情况下提升了模型的知识操纵能力。
训练流程
Ouro 的训练流程是一个多阶段过程,总共使用了7.7T tokens的数据。
如图4所示,该流程始于一个通用的预热阶段,随后是使用3T token的初始稳定训练阶段。在此之后,模型通过"upcycling"策略分支为1.4B和2.6B两种参数规模的变体。

两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT退火(CT Annealing, 1.4T token)、用于长上下文的LongCT(20B token)以及中途训练(Mid-Training, 300B token)。
这个过程产生了Ouro-1.4B和Ouro-2.6B两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的 Ouro-Thinking 系列模型。
在训练稳定性方面,团队发现最初使用8个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步数减少到4,以此在计算深度和稳定性之间取得了平衡。
为了让模型学会何时"提前退出",训练流程采用了新颖的两阶段目标:

循环语言模型架构概览。
左图为训练阶段。在训练过程中,模型使用共享参数的N层层叠结构,并执行n个循环步骤(R=1到R=n)。在每个循环步骤i,一个退出门预测退出概率pᵢ,而语言建模头Lᵢ则计算对应的任务损失。训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。
右图为推理阶段。在推理时,模型可根据由退出概率计算得到的累积分布函数(CDF)提前终止。当
超过设定阈值时,模型将在第i个循环步骤停止,从而实现自适应计算:为复杂输入分配更多循环步数,同时在简单输入上保持高效推理。图中的虚线表示模型在提前退出后可能被跳过的后续步骤。
相关攻略
一、安装前置环境 在正式开始安装OpenClaw之前,务必先配置好必要的开发基础环境。这如同建造高楼前打好地基,是确保后续流程顺畅的关键一步。 首先需要安装 Node js。作为众多现代开发工具的核心运行时,OpenClaw的安装及运行都依赖于它。请前往Node js官网下载适用于您操作系统的最新L
OpenClaw 浏览器配置完全指南 你是否希望从零开始,为AI智能体配置一个能够自主浏览网页、执行截图、点击、输入等任务的工作环境?本指南将为你提供最详尽的配置方案与实战步骤。 目录 核心概念:理解两种浏览器模式 常见报错深度分析与解决方案 配置托管浏览器(首选方案) 扩展中继模式的配置方法 常用
在树莓派Zero上部署OpenClaw:ARMv6L架构终极适配指南 你是否想在性能受限的树莓派Zero上成功运行OpenClaw开源项目?这个想法极具挑战性,因为这款经典迷你开发板搭载的是ARMv6L核心架构。官方Node js早已停止对这一古老指令集的维护,让部署之路困难重重。但别担心,只要掌握
Agent = Reasoning + Acting 1 1 AI Agent 框架基础理论 关于AI智能体是啥,这里摘一段Google Cloud的定义,言简意赅:“AI智能体是使用AI来实现目标并代表用户完成任务的软件系统。其表现出推理、规划和记忆能力,并且具有一定的自主性,能够自主学习、适应和
这项由中科院计算技术研究所智能信息处理实验室和AI安全重点实验室联合开展的研究,发表于2026年3月的arXiv预印本平台(论文编号:arXiv:2603 17512v1),为解决大型语言模型的多语
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





