游乐游手机版
首页/AI热点日报/热点详情

HuggingFace CEO和Bengio团队力荐1500美元训练的HRM模型走红

类型:热点整理2026-07-05
一个约1B参数、训练成本仅1500美元的小模型HRM-Text,凭借分层递归潜空间推理架构,在MATH、GSM8K等推理基准上取得与主流2B-7B模型相当的成绩。它不依赖显式思维链,而是通过内部多轮状态更新完成推理,训练数据仅约60Btokens。这一路线也获得了Bengio团队的跟进研究。

这一成果表明,模型研发领域终于迎来了突破,而非仅仅是圈子内的自娱自乐。

一个参数规模约十亿、从头开始预训练、且训练开销仅需1500美元的小模型,成功将HRM这种架构推至下一代推理技术的舆论中心。HuggingFace的首席执行官亲自为其转发推荐,图灵奖得主Yoshua Bengio作为共同作者的新论文,也沿着相同的潜空间递归推理路径探索。

更值得注意的是,它既非蒸馏产物,也非微调版本,更不是在现有大模型上简单套壳。它是由Sapient Intelligence 发布的 HRM-Text。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

仅从参数量看,很容易将其解读为一个耳熟能详的故事——“小模型再次获胜”。然而,HRM-Text真正引人注目的地方,并非在于其“小”或“廉价”。其背后的HRM架构,正在探索一个更为根本的问题:

模型究竟是应当记住全世界的知识,还是应当学习如何思考、如何检索信息、如何验证结论、如何采取行动?

过去数年,大模型行业给出的答案非常直接:增加参数数量、扩充数据规模、延长训练时间、扩大Token长度。而HRM则走了另一条道路。它不再执着于将模型塑造成一个日益庞大的知识库,而是着力将其打造为一个更强大的推理内核。用一个不甚严谨的类比:大模型就像一位背着图书馆的学生,而HRM则更像一个能解题、能查资料、能复盘、能行动的人。

当然,真正让技术社区严肃审视HRM-Text的,并非某位高管的转发,而是一系列相当反直觉的测试数据。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

这个约1B参数的模型,在MATH上获得了56.2分,在GSM8K上斩获84.5分,在ARC-Challenge上拿到81.9分,在DROP上取得82.2分。而其训练总成本仅为1500美元,仅需16块H100显卡运行不足两天。没有经过post-training,没有RLHF,也没有依赖显式的思维链数据。同时,研发团队开放了论文、模型权重和预训练代码。

这意味着,HRM-Text并非在现有大模型能力上进行包装,而是在基础的预训练阶段,直接验证了一种全新的架构路线。这并非又一个“小模型逆袭”的故事,准确地说,它是一次针对推理模型的“换脑实验”:不让模型说出更长的思维链,而是让它在开口表达之前,先在内部完成思考过程。

而这条技术路线,很快也出现在了更高级别的学术探讨之中。在HRM-Text发布前后,Bengio作为共同作者发表了《Generative Recursive Reasoning》。论文中提出的GRAM,其核心计算结构高度复用了HRM的分层递归框架:同样包含高层状态、低层状态、双时间尺度、多轮递归更新,只是在此基础上进一步引入了概率生成模块。

换句话说,Sapient并非等待行业给出答案再去追随,而是率先提出了一个关键问题,并拿出了可运行、可开源、可验证的模型系统:模型能否在输出结果之前,通过潜空间中的多轮分层递归计算,实现更深层次的内部推理?

因此,HRM-Text提出的问题不只是:一个1B模型为何能达到如此高的基准测试成绩?更关键的问题是:Sapient是否提前验证了一条值得下一代推理模型认真对待的新路径?

知识不等于智能,CoT也不等同于思考过程

当前的推理模型,很多时候像在“边说边想”。Chain-of-Thought 将推理过程写成一系列Token,引导模型一步步输出中间步骤。这当然有效,但问题同样突出:Token越来越长,计算成本越来越高;中间一步出错,后面就可能连续失误;更关键的是,推理过程被绑定在语言表面,模型很容易学会“像推理的文本”,却未必真正掌握“推理的结构”。

HRM提出了一个更具前瞻性的问题:推理为何必须被写出来?人类解题时,并不会将脑内每一步都说出来。我们会在脑海中反复尝试、修正、排除、回溯,最后才给出答案。HRM的目标,正是实现这一点:将草稿纸从“嘴上”拿下来,放回模型的“脑中”。这就是 latent reasoning,即潜空间推理。它不是让模型输出更长的思维链,而是让模型在输出之前,在内部状态中完成多轮计算。

这也是Sapient从一开始就押注HRM的原因。当大多数团队仍围绕Transformer在参数、数据和训练技巧上进行优化时,Sapient选择将问题推向更底层:如果智能不仅来自规模扩张,更来自计算过程的组织方式,那么模型架构本身是否应该被重新设计?

HRM的核心思想,是让模型在输出之前,能够在潜空间中进行多轮、分层、递归的状态更新。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

2025年,Sapient发布了HRM-Symbolic。该模型主要面向数独、迷宫、ARC-AGI等封闭、可验证、强推理任务。这类任务具有明确的规则、清晰的状态空间和可验证的答案,对组合搜索和多步推理能力要求极高。因此,它们非常适合回答第一个问题:分层递归推理这条架构路线,到底是否可行?

在HRM的原始论文中,一个27M参数的模型,在没有预训练、没有CoT数据、仅使用约1000个训练样本的情况下,在Sudoku-Extreme、Maze-Hard和ARC-AGI等强推理任务上取得了非常突出的成绩。这一步回答了第一个问题:在封闭、可验证的强推理任务中,HRM这条路是否可行?答案是:完全可以。

但这还不够,因为数独不是语言,迷宫也不是开放世界。于是HRM-Text回答了第二个更困难的问题:当任务进入自然语言领域时,HRM是否依然有效?这比简单放大模型更为复杂。因为语言不是数独,它更开放、更模糊、更依赖知识,输出形式更灵活,训练也更容易出现不稳定。

因此,HRM-Text的意义,不是简单地将HRM-Symbolic放大。它是在验证分层递归推理这套架构能否应用于基础语言模型。从HRM-Symbolic到HRM-Text,Sapient做的不是一次模型发布,而是一条技术路线的连续推进:先在封闭推理任务中验证架构假设,再将架构扩展到开放语言环境,并同步开放论文、代码、模型权重和训练方法。

HRM的核心:模型内部长出两个“脑区”

标准Transformer更像一条流水线,输入信息后,一层一层向后处理,每一层处理一次,最后输出。增强能力的一种直接方式就是增加层数、参数和训练数据。

HRM的思路则不同。它在模型内部设置了两个以不同节奏工作的模块:一个是高层模块H,另一个是低层模块L。你可以将其理解为两个“脑区”。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

H是“战略脑”,更新较慢,负责把握整体方向、维持长期上下文、决定当前应该往哪个方向思考。L是“执行脑”,更新较快,负责局部计算、细节修正、一步步将问题向前推进。关键在于,H和L并非两个外部Agent,也不是两个模型互相发送消息。它们在同一个神经网络中,在同一个潜空间内,反复更新同一份内部状态。这就是HRM与普通“多智能体套壳”的区别。

可以打个比方:标准Transformer像一篇文章依次交给30位编辑,每个人只修改一次。HRM则更像两组编辑反复打磨同一份稿件:一组快速修改细节,一组慢慢把握整体方向。最后在输出之前,模型已经在内部完成了多轮修正。

这也是HRM-Text与普通小模型的最大区别:它并非仅仅依靠参数数量获得能力,而是让有限的参数参与更深入的内部计算。

HRM-Text到底做对了什么?

如果把HRM-Text讲得过于技术化,很容易变成一篇论文摘要。但它真正做对的事情,可以用三句话概括。

第一,它改变了模型“如何计算”。 HRM-Text不是简单堆叠更多层,而是让模型在输出前进行多轮内部递归计算。参数没有无限增大,但计算过程变得更加深入。

第二,它改变了模型“学习什么”。 大多数语言模型在训练时,会预测整个文本序列中的每一个Token——问题、提示、上下文、答案,统统需要预测。HRM-Text则更直接,它使用指令-响应数据从零开始训练,但只对回答部分计算损失。这意味着模型不再被要求学习“预测题目本身”,而是将训练信号更集中地用于生成答案、完成任务。直观理解就是,老师批改试卷时,不再为“抄写题目”打分,只看你的答案是否正确。这背后配套的是PrefixLM attention mask,指令部分可以充分整合上下文,回答部分再按因果生成方式输出。

第三,它解决了递归训练容易崩溃的问题。 递归架构并非新概念,难点在于循环越深,训练越容易不稳定。HRM-Text引入了MagicNorm和warmup deep credit assignment,让模型在多轮递归中保持激活稳定,并逐步加深信用分配。通俗地讲,不是一上来就让模型为所有深层递归步骤负责,而是先让它学会短路径上的内部计算,再慢慢将责任扩展到更深的推理过程。

这三件事结合起来,才是HRM-Text的核心:架构负责“如何思考”,目标负责“学习什么”,训练方法负责“想得深入还不崩溃”。

光说不练假把式。在相同训练FLOPs条件下,ARC-Challenge从51.9提升至81.9;MATH从35.4提升至56.2;GSM8K从48.4提升至84.5。这表明HRM-Text的表现并非来自某个单一技巧,而是架构、训练目标与训练方法共同作用的结果。

在数据量方面,HRM-Text仅使用了约40B的独特Tokens进行训练。考虑重复采样后,总训练量约为60B Tokens。对比之下,Llama 3.2 3B使用了约9T Tokens,是它的225倍;Qwen3系列2B使用了约36T Tokens,更是达到了约900倍的量级。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

但在多个以推理能力为重点的基准测试上,HRM-Text已经可以与一批2B到7B的主流开源模型一较高下。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

这才是HRM-Text真正打破常规的地方:它不是用更多参数、更长时间训练、更大规模数据,将现有路线继续向前推进一步。它是通过新的计算结构,将有限参数所能实现的有效计算深度重新拉升。

当然,这样的结果必然引发外界对训练数据和评测数据污染的担忧。Sapient对此进行了系统性验证:HRM-Text仅使用公开且可追溯来源的数据进行训练,在更严格的clean split条件下,模型仍然保持了优势结果。这说明其表现并非来自简单的测试集泄漏,而是源于架构和训练方法本身的改进。

更大的信号:Bengio团队也开始走向同一条路

在HRM-Text发布前后,还有一个非常值得关注的信号。Yoshua Bengio作为共同作者参与了Generative Recursive Reasoning Models(GRAM)。这篇论文并非继续在传统Transformer上堆砌规模,而是将recursive reasoning、latent reasoning与generative modeling融为一体。

更准确地说,GRAM并非泛泛地与HRM“方向相似”,而是在核心计算骨架上高度复用了HRM的设计。对比两者结构可以看到,HRM中最关键的几个元素,在GRAM中几乎都能找到对应:高层状态、低层状态、双时间尺度、潜空间递归、输出前的内部计算。如果去掉GRAM外层新增的概率生成模块,其底层计算逻辑与HRM高度重合。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

当然,GRAM并非简单地重复HRM。它在HRM的确定性递归骨架之上,加入了prior、posterior、decoder等概率生成模块,将原本的分层递归推理进一步扩展为概率化、多轨迹的生成式推理框架。如果说HRM首先提出并验证了“高层—低层双时间尺度递归推理”这条路线,那么GRAM则更像是在这个骨架上增加了一层generative probabilistic wrapper。

这也正是GRAM的出现反而让HRM的重要性更加突出的原因。它不是绕开HRM另起炉灶,而是在HRM已经提出并验证的分层递归骨架上继续加入概率生成机制。这意味着,Sapient不仅参与了下一代推理模型的讨论,更是提前给出了一个正在被顶尖研究者复用和扩展的基本架构。

1500美元真正打破的,不只是训练成本

1500美元当然不是终点,也不意味着基础模型研发已经变得简单。HRM-Text仍然只是一个概念验证,并非成熟的聊天模型,也没有经过完整的post-training、RLHF或大规模产品化验证。它在知识覆盖、真实开放任务表现、长上下文能力、工具使用能力、规模化能力等方面,都还需要继续检验。

但这个数字真正触动行业的地方在于:它让基础模型研发重新看到了另一种可能性。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

过去几年,基础模型越来越像一项重工业——需要更大的GPU集群,更长的训练周期,更复杂的数据工程。行业很容易形成一种惯性:只有巨头才能探索基础模型,只有巨额算力才能验证新架构,只有Scaling才是唯一正解。HRM-Text的出现并非否定Scaling,Scaling依然强大。但它提醒行业:Scaling并非唯一入口。如果模型架构本身能提高计算效率,如果训练目标能更加聚焦,如果模型能将知识存储与推理能力解耦,那么基础模型创新就不一定只能由算力规模来定义。

HRM的下一步:不是更会聊天,而是更会工作

Sapient对HRM的长期判断,可以概括为一句话:模型不需要记住一切,但需要学会如何思考、如何查找、如何学习、如何使用信息。这就是reasoning-knowledge decoupling。

未来,它可以作为底层推理核心Reasoning Core,扮演多种角色:诊断复杂系统稳定性、分析系统行为发现瓶颈、将企业内部杂乱知识组织成可检索、可推理的记忆系统、决定何时调用何种工具、规划调用顺序并验证中间结果直到任务完成。这就是HRM与普通聊天模型的区别。聊天模型的核心问题是“如何回答用户?”,HRM更关心的是“如何完成任务?”

从符号到文本,再到世界模型

HRM的路线也不仅限于语言。Sapient先从symbolic reasoning切入,利用数独、迷宫、ARC-AGI这类封闭可验证任务证明了分层递归推理的可行性;接着推进到HRM-Text,将这套架构引入自然语言模型。下一步,很自然地会延伸到图像、视频、音频、机器人技术和世界模型。

因为HRM处理的不限于某一特定数据格式,它处理的是更底层的东西:状态、关系、约束、计划、行动、反馈。符号、文本、图像、视频、音频、机器人传感器数据,本质上都可以转化为模型内部的状态空间。如果HRM能在不同模态中学习“如何组织状态、如何预测变化、如何规划行动”,它就不只是一款语言模型,而可能成为世界模型的一种候选架构。这也正是具身智能(embodied AI)最需要的能力。

精益通用智能:AI的未来不该只有一条路

更进一步看,HRM背后是Sapient对通用智能的一种长期判断:先进AI的探索,不应只是一条被资源规模不断加固的单一路径,而应是一场由更多研究者、开发者、创业团队和开源社区共同推进的技术进程。Sapient将其长期路线概括为“精益通用智能”(Lean General Intelligence)。

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

这里的“精益”,并非指“小”或“便宜”,而是强调更高效、更可及、更注重计算结构本身。过去几年,行业已经充分证明了Scaling的力量。但现在,另一个问题正变得日益重要:当训练成本越来越高,Token账单越来越重,Agent系统越来越复杂,企业越来越需要可控、可验证、可定制的智能系统时,继续扩大模型规模是否是唯一答案?

HRM给出了另一种答案。不是让模型背诵更多知识,而是让模型拥有更强的推理内核;不是让模型输出更长的CoT,而是让模型在潜空间中完成更深入的计算;不是将所有能力都塞进一个黑箱大模型,而是将推理、知识、工具、记忆和行动重新组织起来。

这就是HRM-Text最重要的意义。它并非证明1B模型已经赢了,它证明的是AI架构还远远没有定型。如果说过去几年,行业主线是Scaling,那么接下来,推理模型可能面临一个新问题:模型到底要变得更大,还是要变得更会思考?Sapient的答案,是HRM。而HRM-Text,正是这条路线首次进入基础语言模型语境后的公开样本。它还很早,但它足够重要。因为它提醒整个行业:AI的未来,不应该只有一条路。

从HRM-Symbolic到HRM-Text,再到Bengio参与的GRAM对HRM骨架的高度复用,分层递归推理已经不再仅是Sapient的内部路线,而正在成为下一代推理模型的重要方向。Sapient的意义,也正在于此:它并非在追随行业已有的答案,而是在提前提供一个可运行、可开源、可验证的新方案。

来源:https://tech.ifeng.com/c/8tvPyGWtwgd

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。