游乐游手机版
首页/科技数码/文章详情

B小模型在代码任务上如何打败数百亿参数大模型

时间:2026-06-20 14:19
研究团队提出并行循环Transformer,让70亿参数模型通过两次内部循环思考,在代码任务上超越数百亿参数的大模型,第三次循环后性能因收益-代价失衡而下降。结合显式推理链可进一步提升效果。

在人工智能领域,一个极具吸引力的设想始终存在:如果暂时无法把模型做得“更大”,有没有可能让它变得“更聪明”?这就好比在问:一个普通人,能否通过对同一问题的反复推敲,最终获得天才般的顿悟?

一个由北京航空航天大学、人民大学、IQuest Research、Langboat等机构组成的联合研究团队,在2026年6月通过预印本论文(arXiv:2606.18023)给出了一个既出乎意料又在情理之中的答案:可以,但思考的“度”至关重要——多增加一次循环,性能飙升;再增加一次,反而会跌回原点。

一、为什么同样参数下,“思考两次”比“思考一次”强大这么多

问题的核心在于“循环Transformer”这项技术。通常的语言模型由层层堆叠的“神经回路”构成,信息像流水线一样单向传递。而循环Transformer走的是一条完全不同的路:它只拥有一组共享的神经回路,但这组回路会被反复调用多次。你可以把它想象成一位工匠:传统模型是流水线作业,每个工人只负责一道工序;循环Transformer则是同一位匠人,拿着同一套工具,对同一件作品反复打磨,每次打磨的角度和力度都在调整。

这个设计的魅力显而易见。理论上,你无需增加工具(参数量),仅靠“增加打磨次数”(循环深度)就能提升作品精度。这为“不靠堆料提升能力”开辟了一条新路径。早期研究已经证实,一个35亿参数的模型通过50次循环,甚至能达到相当于5000亿参数模型的“计算量”。

不过,工程上的障碍立刻凸显:循环次数越多,计算耗时成倍增长,还需要额外存储每次循环的中间状态,内存开销巨大。这就好比工匠每打磨一次就得拍张照片存档,打磨50次就得存50份档案,在实际部署中根本行不通。

于是,“并行循环Transformer”(PLT)应运而生,它用两个精巧的设计解决了工程难题:

1. 共享KV门控滑动窗口注意力: 第一轮处理时建立一个“全局知识库”,后续所有循环都可以直接查阅这个固定库,无需各自新建,内存占用因此保持稳定。

2. 跨循环位置偏移(CLP): 这是实现并行的关键。它让各个循环不必严格按顺序等待。例如,第二轮无需等第一轮所有位置都处理完,而是可以基于第一轮邻近位置的信息提前开工。这就像把串行流水线改造成了错位并行的多道工序。

两者结合,使得PLT无论循环多少次,延迟和内存消耗都几乎与只循环一次相同。然而,天下没有免费的午餐——CLP机制带来了一个隐蔽的代价:为了实现并行,每个位置在第二轮及以后,接收的并不是自己上一轮的历史信息,而是旁边位置的信息。

这就好比修改自己的文章时,不看自己上一稿的思路,反而去参考旁边同学上一稿的思路。这种“位置错配”成了PLT结构中的一个固有代价,也为后续的性能谜团埋下了伏笔。

二、用“收益与代价”的天平衡量每一轮循环

研究团队建立了一个清晰的分析框架:每多循环一轮,都伴随着“精炼收益”和“位置错配代价”的博弈。当收益大于代价,循环就是有益的;反之,就是有害的。

那么,如何量化这场博弈呢?团队从三个维度来剖析“收益”:

隐藏状态动态: 观察每轮后模型内部“词语向量”的变化。如果变化方向一致,说明模型在持续优化;如果方向反复颠倒,就像工匠在“修了改、改了修”,完全是无效劳动。

注意力热图演化: 观察模型每轮的关注点分布。如果每轮关注模式都大不相同,说明模型在捕捉新的上下文关系;如果几轮下来模式固化,说明信息流动已经“冻结”,再循环也无意义。

输出分布变化: 直接看模型对下一个词的预测变化有多大。变化越大,说明这一轮思考的实质性影响越强。

至于“代价”,团队定义了一个“内在偏移代价”指标,衡量相邻词语表示向量之间的平均差异。如果相邻词差异很大,那么把邻居的信息当成自己的信息使用,失真就会很严重;反之则影响较小。

当把收益与代价曲线画在同一张图上(论文中的“增益-代价剪刀图”),一个鲜明的规律出现了:从第一轮到第二轮,收益虽然下降但仍处高位,代价基本稳定;但从第二轮开始,收益急剧萎缩,代价却坚如磐石。 代价成了固定的“税”,而收益这块“蛋糕”却越做越小。实验估算,从第三轮开始,每轮的偏移代价高达实际精炼收益的30到45倍。这完美解释了“二次循环”为何是黄金拐点。

三、在模型内部,每一轮到底在做什么

研究团队对训练了不同循环次数(1到4次)的模型进行了深度“解剖”,所有证据都指向同一个结论:第二次循环是真正的“黄金思考”,之后的循环贡献甚微,甚至有害。

从隐藏状态看: 追踪“步长”(变化幅度)、“角度变化”(优化方向一致性)、“有效秩”(语义多样性)和“固定点距离”(离稳定状态有多远)四个指标。数据显示,第二步的修改幅度最大、方向最一致。但从第三步开始,修改方向开始出现反向振荡,且词语表示的“有效秩”达到峰值后开始下降,这意味着模型的区分能力在减弱,语义空间被压缩了。

从注意力机制看: 注意力分布在第二次循环时变化最大,之后迅速“冻结”,不再产生新的信息流动模式。更严重的是,随着循环增加,本应各司其职的多个注意力头变得越来越“同质化”,做着同样的事,这是一种严重的功能冗余退化。此外,模型在所有循环中都严重依赖第一轮建立的全局缓存,后续循环并未带来多少新鲜信息。

从输出结果看: 虽然随着循环深入,正确答案的排名在单调上升(看起来在变好),但每次循环带来的提升在第二次之后急剧萎缩。第四次循环的输出变化,更像是模型在输出前做的一次“格式整理”,而非真正的“内容深化”。

四、来自真实战场的数字:2次循环的实力究竟有多强

理论再精巧,也需要实战检验。研究团队在一系列权威代码测评中进行了全面比拼,结果极具冲击力。

在代码生成任务(HumanEval+)上,2次循环版本得分84.1,优于1次循环的81.1,而3次循环则跌至75.0。在跨语言代码生成(MultiPL-E)上,也呈现同样趋势。

真正的亮点出现在自动化软件工程领域。在目前最权威、要求解决GitHub真实缺陷的SWEbench Verified测评中:

  • 1次循环(基础版):43.0分
  • 2次循环:64.4分(飙升21.4分)
  • 3次循环:27.6分(甚至低于基础版)

这个对比极具戏剧性。要知道,许多主流大模型在这个测评上表现平平。而2次循环的LoopCoder-v2(仅70亿参数)以64.4分的成绩,甚至超越了720亿参数的某顶尖模型(60.4分),与业界顶级模型(69.2-80.9分)的差距也并不遥远。这清晰地证明:通过更聪明的“思考”设计,小模型完全具备挑战巨头的潜力。

五、如果再加上“明说出来”的推理过程,效果会更好吗

上述实验是让模型“内部多想,但不说话”。那么,如果让它像人类一样“边想边说”(即输出思维链),效果会如何?

研究团队对比了“仅内部2次循环”和“2次循环+显式推理链”两个版本。结果发现,在推理密集型任务上,两者叠加产生了“1+1>2”的超加法效应。

例如,在考察实时代码竞赛能力的LiveCodeBench上:

  • 仅循环:35.4分
  • 循环+推理链:62.3分(提升26.9分)

关键在于,显式推理链和隐性循环工作在两个不同层面:前者在文字层面做宏观问题拆解,后者在向量层面对每个子问题进行微观精炼。它们互不重叠,分工协作,从而实现了效能的最大化。这为未来模型设计指明了一条高效路径:同时利用内部精炼和外部推理。

六、这个研究告诉我们怎么选择循环次数

当然,这些发现基于特定的PLT架构。研究团队也给出了一个实用的循环次数选择指南,无需穷举测试,只需观察一个关键指标:有效秩

如果有效秩仍在上升,说明模型的表示多样性尚未饱和,增加循环可能还有收益;如果有效秩开始下降,则意味着后续循环只会让表示空间越来越窄,此时增加循环就是在为固定的位置错配代价“交税”,却买不到新的“精炼成果”。这是一个低成本、高效率的诊断方法。

对于PLT架构而言,2次循环是一个稳健且高效的默认值。想要在此基础上再进一步,更有效的方向或许是结合显式推理,或者探索更智能的、能动态调整位置偏移代价的机制。

说到底,这项研究像极了心理学中的“过度思考”现象:在某些决策中,快速直觉往往优于反复权衡,因为过度分析会让人陷入细节纠缠,丧失全局判断力。LoopCoder-v2的实验与之惊人相似:第二圈循环是清醒的再审视,抓住了关键;而第三圈及以后,则像是在焦虑中不断推翻已有判断,越想越乱。

这对整个AI领域具有重要启示。当计算和规模扩张遇到瓶颈时,如何设计“更深入思考”的机制是关键。简单地“多想想”并不总是有效,核心在于理解每次额外思考的真正贡献与代价。这项研究通过一套可解释的内部诊断方法,将“经验之谈”上升到了系统性的科学分析。

当然,研究也有其边界:所有结论基于PLT这一特定架构,其固有的CLP代价在其他循环设计中未必相同。此外,实验主要在代码任务上验证,在数学、多模态等其他领域是否存在类似的“思考饱和点”,仍有待探索。

Q&A

Q1:LoopCoder-v2是怎么在不增加参数的情况下提升性能的?

A:它采用了“循环Transformer”设计,让同一组核心参数被多次调用,每次调用都对信息进行深度精炼。结合并行循环Transformer(PLT)的优化机制,额外的循环几乎不增加实际延迟和内存开销,从而用接近相同的计算成本实现了更深入的“思考”。

Q2:为什么循环次数从2次增加到3次,LoopCoder-v2的表现反而会下降?

A:核心原因在于“收益-代价”失衡。CLP机制带来的“位置偏移代价”在每次循环中几乎固定,而每次额外循环带来的实质性精炼收益却快速衰减。从第三圈开始,代价远高于收益(约30-45倍)。同时,模型内部表示的多样性在第二圈后开始下降,后续循环反而在压缩其表达能力。

Q3:PLT循环模型的“思考版本”和普通版本有什么区别,为什么叠加使用效果更好?

A:普通版本只在内部隐性循环,不输出过程;“思考版本”则额外输出文字推理链。两者提升来自不同维度:隐性循环精炼微观理解,显式推理拆解宏观结构,两者互不干扰、协同增强,因此叠加后产生了远超单独使用的“超加法”效果。

来源:https://www.163.com/dy/article/KVQO39PO0511DTVV.html
上一篇河南淇县电商生态链绘就县域消费新图景 下一篇Layer 6 AI:如何防止大模型训练偏离目标
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。