HuggingFace CEO和Bengio团队力荐1500美元训练的HRM模型走红_AI热点日报

一个约1B参数、训练成本仅1500美元的小模型HRM-Text，凭借分层递归潜空间推理架构，在MATH、GSM8K等推理基准上取得与主流2B-7B模型相当的成绩。它不依赖显式思维链，而是通过内部多轮状态更新完成推理，训练数据仅约60Btokens。这一路线也获得了Bengio团队的跟进研究。

这一成果表明，模型研发领域终于迎来了突破，而非仅仅是圈子内的自娱自乐。

一个参数规模约十亿、从头开始预训练、且训练开销仅需1500美元的小模型，成功将HRM这种架构推至下一代推理技术的舆论中心。HuggingFace的首席执行官亲自为其转发推荐，图灵奖得主Yoshua Bengio作为共同作者的新论文，也沿着相同的潜空间递归推理路径探索。

更值得注意的是，它既非蒸馏产物，也非微调版本，更不是在现有大模型上简单套壳。它是由Sapient Intelligence 发布的 HRM-Text。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

仅从参数量看，很容易将其解读为一个耳熟能详的故事——“小模型再次获胜”。然而，HRM-Text真正引人注目的地方，并非在于其“小”或“廉价”。其背后的HRM架构，正在探索一个更为根本的问题：

模型究竟是应当记住全世界的知识，还是应当学习如何思考、如何检索信息、如何验证结论、如何采取行动？

过去数年，大模型行业给出的答案非常直接：增加参数数量、扩充数据规模、延长训练时间、扩大Token长度。而HRM则走了另一条道路。它不再执着于将模型塑造成一个日益庞大的知识库，而是着力将其打造为一个更强大的推理内核。用一个不甚严谨的类比：大模型就像一位背着图书馆的学生，而HRM则更像一个能解题、能查资料、能复盘、能行动的人。

当然，真正让技术社区严肃审视HRM-Text的，并非某位高管的转发，而是一系列相当反直觉的测试数据。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

这个约1B参数的模型，在MATH上获得了56.2分，在GSM8K上斩获84.5分，在ARC-Challenge上拿到81.9分，在DROP上取得82.2分。而其训练总成本仅为1500美元，仅需16块H100显卡运行不足两天。没有经过post-training，没有RLHF，也没有依赖显式的思维链数据。同时，研发团队开放了论文、模型权重和预训练代码。

这意味着，HRM-Text并非在现有大模型能力上进行包装，而是在基础的预训练阶段，直接验证了一种全新的架构路线。这并非又一个“小模型逆袭”的故事，准确地说，它是一次针对推理模型的“换脑实验”：不让模型说出更长的思维链，而是让它在开口表达之前，先在内部完成思考过程。

而这条技术路线，很快也出现在了更高级别的学术探讨之中。在HRM-Text发布前后，Bengio作为共同作者发表了《Generative Recursive Reasoning》。论文中提出的GRAM，其核心计算结构高度复用了HRM的分层递归框架：同样包含高层状态、低层状态、双时间尺度、多轮递归更新，只是在此基础上进一步引入了概率生成模块。

换句话说，Sapient并非等待行业给出答案再去追随，而是率先提出了一个关键问题，并拿出了可运行、可开源、可验证的模型系统：模型能否在输出结果之前，通过潜空间中的多轮分层递归计算，实现更深层次的内部推理？

因此，HRM-Text提出的问题不只是：一个1B模型为何能达到如此高的基准测试成绩？更关键的问题是：Sapient是否提前验证了一条值得下一代推理模型认真对待的新路径？

知识不等于智能，CoT也不等同于思考过程

当前的推理模型，很多时候像在“边说边想”。Chain-of-Thought 将推理过程写成一系列Token，引导模型一步步输出中间步骤。这当然有效，但问题同样突出：Token越来越长，计算成本越来越高；中间一步出错，后面就可能连续失误；更关键的是，推理过程被绑定在语言表面，模型很容易学会“像推理的文本”，却未必真正掌握“推理的结构”。

HRM提出了一个更具前瞻性的问题：推理为何必须被写出来？人类解题时，并不会将脑内每一步都说出来。我们会在脑海中反复尝试、修正、排除、回溯，最后才给出答案。HRM的目标，正是实现这一点：将草稿纸从“嘴上”拿下来，放回模型的“脑中”。这就是 latent reasoning，即潜空间推理。它不是让模型输出更长的思维链，而是让模型在输出之前，在内部状态中完成多轮计算。

这也是Sapient从一开始就押注HRM的原因。当大多数团队仍围绕Transformer在参数、数据和训练技巧上进行优化时，Sapient选择将问题推向更底层：如果智能不仅来自规模扩张，更来自计算过程的组织方式，那么模型架构本身是否应该被重新设计？

HRM的核心思想，是让模型在输出之前，能够在潜空间中进行多轮、分层、递归的状态更新。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

2025年，Sapient发布了HRM-Symbolic。该模型主要面向数独、迷宫、ARC-AGI等封闭、可验证、强推理任务。这类任务具有明确的规则、清晰的状态空间和可验证的答案，对组合搜索和多步推理能力要求极高。因此，它们非常适合回答第一个问题：分层递归推理这条架构路线，到底是否可行？

在HRM的原始论文中，一个27M参数的模型，在没有预训练、没有CoT数据、仅使用约1000个训练样本的情况下，在Sudoku-Extreme、Maze-Hard和ARC-AGI等强推理任务上取得了非常突出的成绩。这一步回答了第一个问题：在封闭、可验证的强推理任务中，HRM这条路是否可行？答案是：完全可以。

但这还不够，因为数独不是语言，迷宫也不是开放世界。于是HRM-Text回答了第二个更困难的问题：当任务进入自然语言领域时，HRM是否依然有效？这比简单放大模型更为复杂。因为语言不是数独，它更开放、更模糊、更依赖知识，输出形式更灵活，训练也更容易出现不稳定。

因此，HRM-Text的意义，不是简单地将HRM-Symbolic放大。它是在验证分层递归推理这套架构能否应用于基础语言模型。从HRM-Symbolic到HRM-Text，Sapient做的不是一次模型发布，而是一条技术路线的连续推进：先在封闭推理任务中验证架构假设，再将架构扩展到开放语言环境，并同步开放论文、代码、模型权重和训练方法。

HRM的核心：模型内部长出两个“脑区”

标准Transformer更像一条流水线，输入信息后，一层一层向后处理，每一层处理一次，最后输出。增强能力的一种直接方式就是增加层数、参数和训练数据。

HRM的思路则不同。它在模型内部设置了两个以不同节奏工作的模块：一个是高层模块H，另一个是低层模块L。你可以将其理解为两个“脑区”。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

H是“战略脑”，更新较慢，负责把握整体方向、维持长期上下文、决定当前应该往哪个方向思考。L是“执行脑”，更新较快，负责局部计算、细节修正、一步步将问题向前推进。关键在于，H和L并非两个外部Agent，也不是两个模型互相发送消息。它们在同一个神经网络中，在同一个潜空间内，反复更新同一份内部状态。这就是HRM与普通“多智能体套壳”的区别。

可以打个比方：标准Transformer像一篇文章依次交给30位编辑，每个人只修改一次。HRM则更像两组编辑反复打磨同一份稿件：一组快速修改细节，一组慢慢把握整体方向。最后在输出之前，模型已经在内部完成了多轮修正。

这也是HRM-Text与普通小模型的最大区别：它并非仅仅依靠参数数量获得能力，而是让有限的参数参与更深入的内部计算。

HRM-Text到底做对了什么？

如果把HRM-Text讲得过于技术化，很容易变成一篇论文摘要。但它真正做对的事情，可以用三句话概括。

第一，它改变了模型“如何计算”。 HRM-Text不是简单堆叠更多层，而是让模型在输出前进行多轮内部递归计算。参数没有无限增大，但计算过程变得更加深入。

第二，它改变了模型“学习什么”。 大多数语言模型在训练时，会预测整个文本序列中的每一个Token——问题、提示、上下文、答案，统统需要预测。HRM-Text则更直接，它使用指令-响应数据从零开始训练，但只对回答部分计算损失。这意味着模型不再被要求学习“预测题目本身”，而是将训练信号更集中地用于生成答案、完成任务。直观理解就是，老师批改试卷时，不再为“抄写题目”打分，只看你的答案是否正确。这背后配套的是PrefixLM attention mask，指令部分可以充分整合上下文，回答部分再按因果生成方式输出。

第三，它解决了递归训练容易崩溃的问题。 递归架构并非新概念，难点在于循环越深，训练越容易不稳定。HRM-Text引入了MagicNorm和warmup deep credit assignment，让模型在多轮递归中保持激活稳定，并逐步加深信用分配。通俗地讲，不是一上来就让模型为所有深层递归步骤负责，而是先让它学会短路径上的内部计算，再慢慢将责任扩展到更深的推理过程。

这三件事结合起来，才是HRM-Text的核心：架构负责“如何思考”，目标负责“学习什么”，训练方法负责“想得深入还不崩溃”。

光说不练假把式。在相同训练FLOPs条件下，ARC-Challenge从51.9提升至81.9；MATH从35.4提升至56.2；GSM8K从48.4提升至84.5。这表明HRM-Text的表现并非来自某个单一技巧，而是架构、训练目标与训练方法共同作用的结果。

在数据量方面，HRM-Text仅使用了约40B的独特Tokens进行训练。考虑重复采样后，总训练量约为60B Tokens。对比之下，Llama 3.2 3B使用了约9T Tokens，是它的225倍；Qwen3系列2B使用了约36T Tokens，更是达到了约900倍的量级。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

但在多个以推理能力为重点的基准测试上，HRM-Text已经可以与一批2B到7B的主流开源模型一较高下。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

这才是HRM-Text真正打破常规的地方：它不是用更多参数、更长时间训练、更大规模数据，将现有路线继续向前推进一步。它是通过新的计算结构，将有限参数所能实现的有效计算深度重新拉升。

当然，这样的结果必然引发外界对训练数据和评测数据污染的担忧。Sapient对此进行了系统性验证：HRM-Text仅使用公开且可追溯来源的数据进行训练，在更严格的clean split条件下，模型仍然保持了优势结果。这说明其表现并非来自简单的测试集泄漏，而是源于架构和训练方法本身的改进。

更大的信号：Bengio团队也开始走向同一条路

在HRM-Text发布前后，还有一个非常值得关注的信号。Yoshua Bengio作为共同作者参与了Generative Recursive Reasoning Models（GRAM）。这篇论文并非继续在传统Transformer上堆砌规模，而是将recursive reasoning、latent reasoning与generative modeling融为一体。

更准确地说，GRAM并非泛泛地与HRM“方向相似”，而是在核心计算骨架上高度复用了HRM的设计。对比两者结构可以看到，HRM中最关键的几个元素，在GRAM中几乎都能找到对应：高层状态、低层状态、双时间尺度、潜空间递归、输出前的内部计算。如果去掉GRAM外层新增的概率生成模块，其底层计算逻辑与HRM高度重合。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

当然，GRAM并非简单地重复HRM。它在HRM的确定性递归骨架之上，加入了prior、posterior、decoder等概率生成模块，将原本的分层递归推理进一步扩展为概率化、多轨迹的生成式推理框架。如果说HRM首先提出并验证了“高层—低层双时间尺度递归推理”这条路线，那么GRAM则更像是在这个骨架上增加了一层generative probabilistic wrapper。

这也正是GRAM的出现反而让HRM的重要性更加突出的原因。它不是绕开HRM另起炉灶，而是在HRM已经提出并验证的分层递归骨架上继续加入概率生成机制。这意味着，Sapient不仅参与了下一代推理模型的讨论，更是提前给出了一个正在被顶尖研究者复用和扩展的基本架构。

1500美元真正打破的，不只是训练成本

1500美元当然不是终点，也不意味着基础模型研发已经变得简单。HRM-Text仍然只是一个概念验证，并非成熟的聊天模型，也没有经过完整的post-training、RLHF或大规模产品化验证。它在知识覆盖、真实开放任务表现、长上下文能力、工具使用能力、规模化能力等方面，都还需要继续检验。

但这个数字真正触动行业的地方在于：它让基础模型研发重新看到了另一种可能性。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

过去几年，基础模型越来越像一项重工业——需要更大的GPU集群，更长的训练周期，更复杂的数据工程。行业很容易形成一种惯性：只有巨头才能探索基础模型，只有巨额算力才能验证新架构，只有Scaling才是唯一正解。HRM-Text的出现并非否定Scaling，Scaling依然强大。但它提醒行业：Scaling并非唯一入口。如果模型架构本身能提高计算效率，如果训练目标能更加聚焦，如果模型能将知识存储与推理能力解耦，那么基础模型创新就不一定只能由算力规模来定义。

HRM的下一步：不是更会聊天，而是更会工作

Sapient对HRM的长期判断，可以概括为一句话：模型不需要记住一切，但需要学会如何思考、如何查找、如何学习、如何使用信息。这就是reasoning-knowledge decoupling。

未来，它可以作为底层推理核心Reasoning Core，扮演多种角色：诊断复杂系统稳定性、分析系统行为发现瓶颈、将企业内部杂乱知识组织成可检索、可推理的记忆系统、决定何时调用何种工具、规划调用顺序并验证中间结果直到任务完成。这就是HRM与普通聊天模型的区别。聊天模型的核心问题是“如何回答用户？”，HRM更关心的是“如何完成任务？”

从符号到文本，再到世界模型

HRM的路线也不仅限于语言。Sapient先从symbolic reasoning切入，利用数独、迷宫、ARC-AGI这类封闭可验证任务证明了分层递归推理的可行性；接着推进到HRM-Text，将这套架构引入自然语言模型。下一步，很自然地会延伸到图像、视频、音频、机器人技术和世界模型。

因为HRM处理的不限于某一特定数据格式，它处理的是更底层的东西：状态、关系、约束、计划、行动、反馈。符号、文本、图像、视频、音频、机器人传感器数据，本质上都可以转化为模型内部的状态空间。如果HRM能在不同模态中学习“如何组织状态、如何预测变化、如何规划行动”，它就不只是一款语言模型，而可能成为世界模型的一种候选架构。这也正是具身智能（embodied AI）最需要的能力。

精益通用智能：AI的未来不该只有一条路

更进一步看，HRM背后是Sapient对通用智能的一种长期判断：先进AI的探索，不应只是一条被资源规模不断加固的单一路径，而应是一场由更多研究者、开发者、创业团队和开源社区共同推进的技术进程。Sapient将其长期路线概括为“精益通用智能”（Lean General Intelligence）。

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

这里的“精益”，并非指“小”或“便宜”，而是强调更高效、更可及、更注重计算结构本身。过去几年，行业已经充分证明了Scaling的力量。但现在，另一个问题正变得日益重要：当训练成本越来越高，Token账单越来越重，Agent系统越来越复杂，企业越来越需要可控、可验证、可定制的智能系统时，继续扩大模型规模是否是唯一答案？

HRM给出了另一种答案。不是让模型背诵更多知识，而是让模型拥有更强的推理内核；不是让模型输出更长的CoT，而是让模型在潜空间中完成更深入的计算；不是将所有能力都塞进一个黑箱大模型，而是将推理、知识、工具、记忆和行动重新组织起来。

这就是HRM-Text最重要的意义。它并非证明1B模型已经赢了，它证明的是AI架构还远远没有定型。如果说过去几年，行业主线是Scaling，那么接下来，推理模型可能面临一个新问题：模型到底要变得更大，还是要变得更会思考？Sapient的答案，是HRM。而HRM-Text，正是这条路线首次进入基础语言模型语境后的公开样本。它还很早，但它足够重要。因为它提醒整个行业：AI的未来，不应该只有一条路。

从HRM-Symbolic到HRM-Text，再到Bengio参与的GRAM对HRM骨架的高度复用，分层递归推理已经不再仅是Sapient的内部路线，而正在成为下一代推理模型的重要方向。Sapient的意义，也正在于此：它并非在追随行业已有的答案，而是在提前提供一个可运行、可开源、可验证的新方案。