在人工智能领域,一个极具吸引力的设想始终存在:如果暂时无法把模型做得“更大”,有没有可能让它变得“更聪明”?这就好比在问:一个普通人,能否通过对同一问题的反复推敲,最终获得天才般的顿悟?
一个由北京航空航天大学、人民大学、IQuest Research、Langboat等机构组成的联合研究团队,在2026年6月通过预印本论文(arXiv:2606.18023)给出了一个既出乎意料又在情理之中的答案:可以,但思考的“度”至关重要——多增加一次循环,性能飙升;再增加一次,反而会跌回原点。
一、为什么同样参数下,“思考两次”比“思考一次”强大这么多
问题的核心在于“循环Transformer”这项技术。通常的语言模型由层层堆叠的“神经回路”构成,信息像流水线一样单向传递。而循环Transformer走的是一条完全不同的路:它只拥有一组共享的神经回路,但这组回路会被反复调用多次。你可以把它想象成一位工匠:传统模型是流水线作业,每个工人只负责一道工序;循环Transformer则是同一位匠人,拿着同一套工具,对同一件作品反复打磨,每次打磨的角度和力度都在调整。
这个设计的魅力显而易见。理论上,你无需增加工具(参数量),仅靠“增加打磨次数”(循环深度)就能提升作品精度。这为“不靠堆料提升能力”开辟了一条新路径。早期研究已经证实,一个35亿参数的模型通过50次循环,甚至能达到相当于5000亿参数模型的“计算量”。
不过,工程上的障碍立刻凸显:循环次数越多,计算耗时成倍增长,还需要额外存储每次循环的中间状态,内存开销巨大。这就好比工匠每打磨一次就得拍张照片存档,打磨50次就得存50份档案,在实际部署中根本行不通。
于是,“并行循环Transformer”(PLT)应运而生,它用两个精巧的设计解决了工程难题:
1. 共享KV门控滑动窗口注意力: 第一轮处理时建立一个“全局知识库”,后续所有循环都可以直接查阅这个固定库,无需各自新建,内存占用因此保持稳定。
2. 跨循环位置偏移(CLP): 这是实现并行的关键。它让各个循环不必严格按顺序等待。例如,第二轮无需等第一轮所有位置都处理完,而是可以基于第一轮邻近位置的信息提前开工。这就像把串行流水线改造成了错位并行的多道工序。
两者结合,使得PLT无论循环多少次,延迟和内存消耗都几乎与只循环一次相同。然而,天下没有免费的午餐——CLP机制带来了一个隐蔽的代价:为了实现并行,每个位置在第二轮及以后,接收的并不是自己上一轮的历史信息,而是旁边位置的信息。
这就好比修改自己的文章时,不看自己上一稿的思路,反而去参考旁边同学上一稿的思路。这种“位置错配”成了PLT结构中的一个固有代价,也为后续的性能谜团埋下了伏笔。
二、用“收益与代价”的天平衡量每一轮循环
研究团队建立了一个清晰的分析框架:每多循环一轮,都伴随着“精炼收益”和“位置错配代价”的博弈。当收益大于代价,循环就是有益的;反之,就是有害的。
那么,如何量化这场博弈呢?团队从三个维度来剖析“收益”:
隐藏状态动态: 观察每轮后模型内部“词语向量”的变化。如果变化方向一致,说明模型在持续优化;如果方向反复颠倒,就像工匠在“修了改、改了修”,完全是无效劳动。
注意力热图演化: 观察模型每轮的关注点分布。如果每轮关注模式都大不相同,说明模型在捕捉新的上下文关系;如果几轮下来模式固化,说明信息流动已经“冻结”,再循环也无意义。
输出分布变化: 直接看模型对下一个词的预测变化有多大。变化越大,说明这一轮思考的实质性影响越强。
至于“代价”,团队定义了一个“内在偏移代价”指标,衡量相邻词语表示向量之间的平均差异。如果相邻词差异很大,那么把邻居的信息当成自己的信息使用,失真就会很严重;反之则影响较小。
当把收益与代价曲线画在同一张图上(论文中的“增益-代价剪刀图”),一个鲜明的规律出现了:从第一轮到第二轮,收益虽然下降但仍处高位,代价基本稳定;但从第二轮开始,收益急剧萎缩,代价却坚如磐石。 代价成了固定的“税”,而收益这块“蛋糕”却越做越小。实验估算,从第三轮开始,每轮的偏移代价高达实际精炼收益的30到45倍。这完美解释了“二次循环”为何是黄金拐点。
三、在模型内部,每一轮到底在做什么
研究团队对训练了不同循环次数(1到4次)的模型进行了深度“解剖”,所有证据都指向同一个结论:第二次循环是真正的“黄金思考”,之后的循环贡献甚微,甚至有害。
从隐藏状态看: 追踪“步长”(变化幅度)、“角度变化”(优化方向一致性)、“有效秩”(语义多样性)和“固定点距离”(离稳定状态有多远)四个指标。数据显示,第二步的修改幅度最大、方向最一致。但从第三步开始,修改方向开始出现反向振荡,且词语表示的“有效秩”达到峰值后开始下降,这意味着模型的区分能力在减弱,语义空间被压缩了。
从注意力机制看: 注意力分布在第二次循环时变化最大,之后迅速“冻结”,不再产生新的信息流动模式。更严重的是,随着循环增加,本应各司其职的多个注意力头变得越来越“同质化”,做着同样的事,这是一种严重的功能冗余退化。此外,模型在所有循环中都严重依赖第一轮建立的全局缓存,后续循环并未带来多少新鲜信息。
从输出结果看: 虽然随着循环深入,正确答案的排名在单调上升(看起来在变好),但每次循环带来的提升在第二次之后急剧萎缩。第四次循环的输出变化,更像是模型在输出前做的一次“格式整理”,而非真正的“内容深化”。
四、来自真实战场的数字:2次循环的实力究竟有多强
理论再精巧,也需要实战检验。研究团队在一系列权威代码测评中进行了全面比拼,结果极具冲击力。
在代码生成任务(HumanEval+)上,2次循环版本得分84.1,优于1次循环的81.1,而3次循环则跌至75.0。在跨语言代码生成(MultiPL-E)上,也呈现同样趋势。
真正的亮点出现在自动化软件工程领域。在目前最权威、要求解决GitHub真实缺陷的SWEbench Verified测评中:
- 1次循环(基础版):43.0分
- 2次循环:64.4分(飙升21.4分)
- 3次循环:27.6分(甚至低于基础版)
这个对比极具戏剧性。要知道,许多主流大模型在这个测评上表现平平。而2次循环的LoopCoder-v2(仅70亿参数)以64.4分的成绩,甚至超越了720亿参数的某顶尖模型(60.4分),与业界顶级模型(69.2-80.9分)的差距也并不遥远。这清晰地证明:通过更聪明的“思考”设计,小模型完全具备挑战巨头的潜力。
五、如果再加上“明说出来”的推理过程,效果会更好吗
上述实验是让模型“内部多想,但不说话”。那么,如果让它像人类一样“边想边说”(即输出思维链),效果会如何?
研究团队对比了“仅内部2次循环”和“2次循环+显式推理链”两个版本。结果发现,在推理密集型任务上,两者叠加产生了“1+1>2”的超加法效应。
例如,在考察实时代码竞赛能力的LiveCodeBench上:
- 仅循环:35.4分
- 循环+推理链:62.3分(提升26.9分)
关键在于,显式推理链和隐性循环工作在两个不同层面:前者在文字层面做宏观问题拆解,后者在向量层面对每个子问题进行微观精炼。它们互不重叠,分工协作,从而实现了效能的最大化。这为未来模型设计指明了一条高效路径:同时利用内部精炼和外部推理。
六、这个研究告诉我们怎么选择循环次数
当然,这些发现基于特定的PLT架构。研究团队也给出了一个实用的循环次数选择指南,无需穷举测试,只需观察一个关键指标:有效秩。
如果有效秩仍在上升,说明模型的表示多样性尚未饱和,增加循环可能还有收益;如果有效秩开始下降,则意味着后续循环只会让表示空间越来越窄,此时增加循环就是在为固定的位置错配代价“交税”,却买不到新的“精炼成果”。这是一个低成本、高效率的诊断方法。
对于PLT架构而言,2次循环是一个稳健且高效的默认值。想要在此基础上再进一步,更有效的方向或许是结合显式推理,或者探索更智能的、能动态调整位置偏移代价的机制。
说到底,这项研究像极了心理学中的“过度思考”现象:在某些决策中,快速直觉往往优于反复权衡,因为过度分析会让人陷入细节纠缠,丧失全局判断力。LoopCoder-v2的实验与之惊人相似:第二圈循环是清醒的再审视,抓住了关键;而第三圈及以后,则像是在焦虑中不断推翻已有判断,越想越乱。
这对整个AI领域具有重要启示。当计算和规模扩张遇到瓶颈时,如何设计“更深入思考”的机制是关键。简单地“多想想”并不总是有效,核心在于理解每次额外思考的真正贡献与代价。这项研究通过一套可解释的内部诊断方法,将“经验之谈”上升到了系统性的科学分析。
当然,研究也有其边界:所有结论基于PLT这一特定架构,其固有的CLP代价在其他循环设计中未必相同。此外,实验主要在代码任务上验证,在数学、多模态等其他领域是否存在类似的“思考饱和点”,仍有待探索。
Q&A
Q1:LoopCoder-v2是怎么在不增加参数的情况下提升性能的?
A:它采用了“循环Transformer”设计,让同一组核心参数被多次调用,每次调用都对信息进行深度精炼。结合并行循环Transformer(PLT)的优化机制,额外的循环几乎不增加实际延迟和内存开销,从而用接近相同的计算成本实现了更深入的“思考”。
Q2:为什么循环次数从2次增加到3次,LoopCoder-v2的表现反而会下降?
A:核心原因在于“收益-代价”失衡。CLP机制带来的“位置偏移代价”在每次循环中几乎固定,而每次额外循环带来的实质性精炼收益却快速衰减。从第三圈开始,代价远高于收益(约30-45倍)。同时,模型内部表示的多样性在第二圈后开始下降,后续循环反而在压缩其表达能力。
Q3:PLT循环模型的“思考版本”和普通版本有什么区别,为什么叠加使用效果更好?
A:普通版本只在内部隐性循环,不输出过程;“思考版本”则额外输出文字推理链。两者提升来自不同维度:隐性循环精炼微观理解,显式推理拆解宏观结构,两者互不干扰、协同增强,因此叠加后产生了远超单独使用的“超加法”效果。
