三星TRM论文:用递归网络替代Transformer,轻量化架构实现高效建模
三星SAIL蒙特利尔实验室的研究团队最近发表了题为《Less is More: Recursive Reasoning with Tiny Networks》的论文,提出了一种名为Tiny Recursive Model(TRM)的创新递归推理架构。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项研究证明,在复杂推理任务中,小型神经网络同样能够超越大型语言模型的表现。
TRM仅使用700万参数和两层神经网络结构,就在多项高难度测试中明显优于DeepSeek R1、Gemini 2.5 Pro、O3-mini等主流模型。
在架构设计上,TRM部分变体甚至放弃了自注意力机制(仅限于TRM-MLP变体;TRM-Att仍保留自注意力)。论文指出,对于小规模固定输入任务,多层感知机反而能有效减少过拟合现象。此外,当上下文长度较短时,注意力机制反而会造成计算资源的浪费。在数独求解、复杂迷宫等特定任务中,采用纯MLP结构的TRM表现优于基于Transformer的模型。

如图所示:Tiny Recursive Model(TRM)通过在“答案y”和“潜在思考变量z”之间进行递归迭代更新,实现了小参数模型的多轮自我修正推理能力。
传统大模型通常依赖链式思维(Chain-of-Thought)生成推理步骤,但这种方式成本高昂且容易累积错误。
TRM则通过递归地更新“答案”和“潜在思考变量”,让模型在多次自我修正中逐步逼近正确答案。
论文总结道:“TRM以极小的规模实现了前所未有的泛化能力。”在ARC-AGI推理基准测试中,TRM分别取得了45%(ARC-AGI-1)与8%(ARC-AGI-2)的准确率,明显优于多数大型模型。在Sudoku-Extreme任务上,其准确率更是达到87.4%,刷新了该领域的性能纪录。
研究团队强调,这种架构的核心逻辑是“递归即深度”:深度递归可以替代层数增加,模型无需更多层级,只需通过反复思考就能提升推理能力。
推理机制重构:少即是多
TRM的设计源于对上一代分层推理模型(HRM)的深入反思。

HRM模型通过在不同频率下递归更新潜变量
热门专题
热门推荐
“我们的代码,终将写入繁星”:追觅科技成立天文BU,构建从地面到太空的生态闭环 “我们的代码,终将写入繁星。”这句来自追觅科技的宣言,不只是一句诗意的口号,更是一份清晰的战略升级路线图。就在9月10日,这家中国科技企业正式宣告成立天文业务单元(BU),由此完成了一次至关重要的战略跃迁。这标志着其“全
Just Learn是什么 提起用AI为教育赋能,Just Learn这款工具是个绕不开的名字。它由Just Learn公司开发,核心目标非常明确:一手帮教师扩展专业能力,一手为学生打造个性化的学习旅程。说到底,它的价值在于通过AI驱动学习和24 7全天候辅导这两大核心,把教育资源重新“盘活”,让老
Vue 渲染机制深度解析:Patch 函数核心逻辑与优化策略 Vue js 的响应式系统实现了数据驱动视图的核心理念。然而,当数据发生变化时,视图是如何被高效且准确地更新的呢?这背后的核心引擎,正是虚拟 DOM 体系中的 Patch 函数。它并非直接操作真实 DOM,而是通过深度比对新旧虚拟节点(V
《空之轨迹SC》完全重制版《空之轨迹 the 2nd》正式定档2026年9月17日,登陆多平台 日本Falcom官方正式公布,经典日式角色扮演游戏《空之轨迹SC》的完全重制版——《空之轨迹 the 2nd》,将于2026年9月17日全球同步发售。本作将登陆任天堂Switch 2、Switch、Pla
AI艺术提示生成器是什么 简单来说,你可以把它理解为一个永不枯竭的创意火花塞。这个基于前沿AI技术的工具,专为破解创作瓶颈而生,无论你是专业画师还是灵感偶尔“罢工”的爱好者,它都能派上用场。它的工作原理并不复杂:依托当前顶级的OpenAI模型,将你的初步想法“催化”成一系列具体、新颖且富有启发性的艺





