B小模型在代码任务上如何打败数百亿参数大模型

时间：2026-06-20 14:19

研究团队提出并行循环Transformer，让70亿参数模型通过两次内部循环思考，在代码任务上超越数百亿参数的大模型，第三次循环后性能因收益-代价失衡而下降。结合显式推理链可进一步提升效果。

在人工智能领域，一个极具吸引力的设想始终存在：如果暂时无法把模型做得“更大”，有没有可能让它变得“更聪明”？这就好比在问：一个普通人，能否通过对同一问题的反复推敲，最终获得天才般的顿悟？

一个由北京航空航天大学、人民大学、IQuest Research、Langboat等机构组成的联合研究团队，在2026年6月通过预印本论文（arXiv:2606.18023）给出了一个既出乎意料又在情理之中的答案：可以，但思考的“度”至关重要——多增加一次循环，性能飙升；再增加一次，反而会跌回原点。

一、为什么同样参数下，“思考两次”比“思考一次”强大这么多

问题的核心在于“循环Transformer”这项技术。通常的语言模型由层层堆叠的“神经回路”构成，信息像流水线一样单向传递。而循环Transformer走的是一条完全不同的路：它只拥有一组共享的神经回路，但这组回路会被反复调用多次。你可以把它想象成一位工匠：传统模型是流水线作业，每个工人只负责一道工序；循环Transformer则是同一位匠人，拿着同一套工具，对同一件作品反复打磨，每次打磨的角度和力度都在调整。

这个设计的魅力显而易见。理论上，你无需增加工具（参数量），仅靠“增加打磨次数”（循环深度）就能提升作品精度。这为“不靠堆料提升能力”开辟了一条新路径。早期研究已经证实，一个35亿参数的模型通过50次循环，甚至能达到相当于5000亿参数模型的“计算量”。

不过，工程上的障碍立刻凸显：循环次数越多，计算耗时成倍增长，还需要额外存储每次循环的中间状态，内存开销巨大。这就好比工匠每打磨一次就得拍张照片存档，打磨50次就得存50份档案，在实际部署中根本行不通。

于是，“并行循环Transformer”（PLT）应运而生，它用两个精巧的设计解决了工程难题：

1. 共享KV门控滑动窗口注意力： 第一轮处理时建立一个“全局知识库”，后续所有循环都可以直接查阅这个固定库，无需各自新建，内存占用因此保持稳定。

2. 跨循环位置偏移（CLP）： 这是实现并行的关键。它让各个循环不必严格按顺序等待。例如，第二轮无需等第一轮所有位置都处理完，而是可以基于第一轮邻近位置的信息提前开工。这就像把串行流水线改造成了错位并行的多道工序。

两者结合，使得PLT无论循环多少次，延迟和内存消耗都几乎与只循环一次相同。然而，天下没有免费的午餐——CLP机制带来了一个隐蔽的代价：为了实现并行，每个位置在第二轮及以后，接收的并不是自己上一轮的历史信息，而是旁边位置的信息。

这就好比修改自己的文章时，不看自己上一稿的思路，反而去参考旁边同学上一稿的思路。这种“位置错配”成了PLT结构中的一个固有代价，也为后续的性能谜团埋下了伏笔。

二、用“收益与代价”的天平衡量每一轮循环

研究团队建立了一个清晰的分析框架：每多循环一轮，都伴随着“精炼收益”和“位置错配代价”的博弈。当收益大于代价，循环就是有益的；反之，就是有害的。

那么，如何量化这场博弈呢？团队从三个维度来剖析“收益”：

隐藏状态动态： 观察每轮后模型内部“词语向量”的变化。如果变化方向一致，说明模型在持续优化；如果方向反复颠倒，就像工匠在“修了改、改了修”，完全是无效劳动。

注意力热图演化： 观察模型每轮的关注点分布。如果每轮关注模式都大不相同，说明模型在捕捉新的上下文关系；如果几轮下来模式固化，说明信息流动已经“冻结”，再循环也无意义。

输出分布变化： 直接看模型对下一个词的预测变化有多大。变化越大，说明这一轮思考的实质性影响越强。

至于“代价”，团队定义了一个“内在偏移代价”指标，衡量相邻词语表示向量之间的平均差异。如果相邻词差异很大，那么把邻居的信息当成自己的信息使用，失真就会很严重；反之则影响较小。

当把收益与代价曲线画在同一张图上（论文中的“增益-代价剪刀图”），一个鲜明的规律出现了：从第一轮到第二轮，收益虽然下降但仍处高位，代价基本稳定；但从第二轮开始，收益急剧萎缩，代价却坚如磐石。 代价成了固定的“税”，而收益这块“蛋糕”却越做越小。实验估算，从第三轮开始，每轮的偏移代价高达实际精炼收益的30到45倍。这完美解释了“二次循环”为何是黄金拐点。

三、在模型内部，每一轮到底在做什么

研究团队对训练了不同循环次数（1到4次）的模型进行了深度“解剖”，所有证据都指向同一个结论：第二次循环是真正的“黄金思考”，之后的循环贡献甚微，甚至有害。

从隐藏状态看： 追踪“步长”（变化幅度）、“角度变化”（优化方向一致性）、“有效秩”（语义多样性）和“固定点距离”（离稳定状态有多远）四个指标。数据显示，第二步的修改幅度最大、方向最一致。但从第三步开始，修改方向开始出现反向振荡，且词语表示的“有效秩”达到峰值后开始下降，这意味着模型的区分能力在减弱，语义空间被压缩了。

从注意力机制看： 注意力分布在第二次循环时变化最大，之后迅速“冻结”，不再产生新的信息流动模式。更严重的是，随着循环增加，本应各司其职的多个注意力头变得越来越“同质化”，做着同样的事，这是一种严重的功能冗余退化。此外，模型在所有循环中都严重依赖第一轮建立的全局缓存，后续循环并未带来多少新鲜信息。

从输出结果看： 虽然随着循环深入，正确答案的排名在单调上升（看起来在变好），但每次循环带来的提升在第二次之后急剧萎缩。第四次循环的输出变化，更像是模型在输出前做的一次“格式整理”，而非真正的“内容深化”。

四、来自真实战场的数字：2次循环的实力究竟有多强

理论再精巧，也需要实战检验。研究团队在一系列权威代码测评中进行了全面比拼，结果极具冲击力。

在代码生成任务（HumanEval+）上，2次循环版本得分84.1，优于1次循环的81.1，而3次循环则跌至75.0。在跨语言代码生成（MultiPL-E）上，也呈现同样趋势。

真正的亮点出现在自动化软件工程领域。在目前最权威、要求解决GitHub真实缺陷的SWEbench Verified测评中：

1次循环（基础版）：43.0分
2次循环：64.4分（飙升21.4分）
3次循环：27.6分（甚至低于基础版）

这个对比极具戏剧性。要知道，许多主流大模型在这个测评上表现平平。而2次循环的LoopCoder-v2（仅70亿参数）以64.4分的成绩，甚至超越了720亿参数的某顶尖模型（60.4分），与业界顶级模型（69.2-80.9分）的差距也并不遥远。这清晰地证明：通过更聪明的“思考”设计，小模型完全具备挑战巨头的潜力。

五、如果再加上“明说出来”的推理过程，效果会更好吗

上述实验是让模型“内部多想，但不说话”。那么，如果让它像人类一样“边想边说”（即输出思维链），效果会如何？

研究团队对比了“仅内部2次循环”和“2次循环+显式推理链”两个版本。结果发现，在推理密集型任务上，两者叠加产生了“1+1>2”的超加法效应。

例如，在考察实时代码竞赛能力的LiveCodeBench上：

仅循环：35.4分
循环+推理链：62.3分（提升26.9分）

关键在于，显式推理链和隐性循环工作在两个不同层面：前者在文字层面做宏观问题拆解，后者在向量层面对每个子问题进行微观精炼。它们互不重叠，分工协作，从而实现了效能的最大化。这为未来模型设计指明了一条高效路径：同时利用内部精炼和外部推理。

六、这个研究告诉我们怎么选择循环次数

当然，这些发现基于特定的PLT架构。研究团队也给出了一个实用的循环次数选择指南，无需穷举测试，只需观察一个关键指标：有效秩。

如果有效秩仍在上升，说明模型的表示多样性尚未饱和，增加循环可能还有收益；如果有效秩开始下降，则意味着后续循环只会让表示空间越来越窄，此时增加循环就是在为固定的位置错配代价“交税”，却买不到新的“精炼成果”。这是一个低成本、高效率的诊断方法。

对于PLT架构而言，2次循环是一个稳健且高效的默认值。想要在此基础上再进一步，更有效的方向或许是结合显式推理，或者探索更智能的、能动态调整位置偏移代价的机制。

说到底，这项研究像极了心理学中的“过度思考”现象：在某些决策中，快速直觉往往优于反复权衡，因为过度分析会让人陷入细节纠缠，丧失全局判断力。LoopCoder-v2的实验与之惊人相似：第二圈循环是清醒的再审视，抓住了关键；而第三圈及以后，则像是在焦虑中不断推翻已有判断，越想越乱。

这对整个AI领域具有重要启示。当计算和规模扩张遇到瓶颈时，如何设计“更深入思考”的机制是关键。简单地“多想想”并不总是有效，核心在于理解每次额外思考的真正贡献与代价。这项研究通过一套可解释的内部诊断方法，将“经验之谈”上升到了系统性的科学分析。

当然，研究也有其边界：所有结论基于PLT这一特定架构，其固有的CLP代价在其他循环设计中未必相同。此外，实验主要在代码任务上验证，在数学、多模态等其他领域是否存在类似的“思考饱和点”，仍有待探索。

Q&A

Q1：LoopCoder-v2是怎么在不增加参数的情况下提升性能的？

A：它采用了“循环Transformer”设计，让同一组核心参数被多次调用，每次调用都对信息进行深度精炼。结合并行循环Transformer（PLT）的优化机制，额外的循环几乎不增加实际延迟和内存开销，从而用接近相同的计算成本实现了更深入的“思考”。

Q2：为什么循环次数从2次增加到3次，LoopCoder-v2的表现反而会下降？

A：核心原因在于“收益-代价”失衡。CLP机制带来的“位置偏移代价”在每次循环中几乎固定，而每次额外循环带来的实质性精炼收益却快速衰减。从第三圈开始，代价远高于收益（约30-45倍）。同时，模型内部表示的多样性在第二圈后开始下降，后续循环反而在压缩其表达能力。

Q3：PLT循环模型的“思考版本”和普通版本有什么区别，为什么叠加使用效果更好？

A：普通版本只在内部隐性循环，不输出过程；“思考版本”则额外输出文字推理链。两者提升来自不同维度：隐性循环精炼微观理解，显式推理拆解宏观结构，两者互不干扰、协同增强，因此叠加后产生了远超单独使用的“超加法”效果。

来源：https://www.163.com/dy/article/KVQO39PO0511DTVV.html

大模型

上一篇河南淇县电商生态链绘就县域消费新图景 下一篇Layer 6 AI：如何防止大模型训练偏离目标

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。