这篇由Gensyn研究团队完成的工作,以预印本形式于2026年5月26日上传至arXiv平台,编号为arXiv:2605.27130v1,归属计算机科学·机器学习领域。原论文全文可通过该编号在arXiv上获取。
先讲一个挺直观、但又容易被忽视的判断。
想象一下,你要组建一支寻宝探险队。有两种组队方式:第一种,复制同一个自己,派出四个一模一样的“你”分头行动;第二种,找来四个背景、技能、思维方式完全不同的人,每人负责一片区域。凭直觉你也能猜到,第二种方案更可能发现那些单一视角看不见的宝藏。
这恰恰是Gensyn团队这项研究的核心直觉。他们探讨的是一个叫做“质量多样性搜索”的问题——说白了,就是如何让计算机程序同时找到“多种类型的好解”,而不是仅仅找出“那个最好的解”。他们发现,当你指派不同的大语言模型担任搜索过程中的“变异引擎”时,整体效果远远优于让同一个模型反复运行。这套框架,他们称之为DEI,即“进化推断中的多样性”(Diversity in Evolutionary Inference)。
一、进化算法与AI创作者的相遇
理解这项研究,得先认识一种叫做“进化算法”的计算思路。它模仿自然界的生物进化:先有一批“候选方案”,从中挑出表现好的,对它们进行“变异”产生新方案,再评估、再筛选,如此循环往复,方案质量就像种群演化一样不断提升。
其中,“变异”这个环节至关重要。传统的变异操作依赖人工设计的规则,比如随机修改代码的某些字符。但近年来,大语言模型(像ChatGPT这类AI)被发现是极为高效的“创意变异器”——它们不是机械地胡乱改动,而是能真正理解一段代码的意图,并且以有意义的方式去改写和扩展它。
不过,每个大语言模型都有自己独特的“思维惯性”。一个主要在Python教程上训练出来的模型,会倾向于写出某种特定风格的控制流;一个擅长竞赛编程的模型,会优先尝试另一套策略;而一个被精心微调成“听话”的指令模型,在创作时可能比原始的代码补全模型更保守。这些倾向,既是模型的特点,也意味着每个模型都有自己看不见的“盲区”。
如果在进化搜索中只用一个模型,那么这个模型的盲区就会成为最终结果中永远的空白。
二、“核战争”:他们用来测试的奇特竞技场
研究团队选择了一个名为“Core War”(核心战争)的领域作为实验平台。这是一个诞生于上世纪80年代的编程竞技游戏:两个或多个用特殊汇编语言(Redcode)写的微型程序,被放进一段循环的虚拟内存(叫MARS,即内存数组Redcode模拟器)中,它们相互厮杀,目标就是让对方程序崩溃,同时让自己生存下去。
这个游戏里的策略极其丰富。有些程序像虫群一样不停复制自己向前推进(称为“imp”);有些程序四处轰炸内存,用无效指令覆盖对方代码(称为“dwarf”);有些程序像雷达一样扫描内存,一旦发现对手就精准打击(称为“scanner”);还有一些把自己藏进坚固的“城堡”,外层套上防护(称为“fortress warrior”)。
这个竞技场的好处在于:胜负判断非常清晰,而且程序的“行为特征”完全可以量化。研究团队使用两个维度来描述每个程序的特点:一个是“时间空间积”,即程序的代码长度乘以它在战斗中的平均存活时间,反映程序在“占地面积”和“持久性”之间的取舍;另一个是“内存覆盖率”,指程序在战斗中访问了多大比例的内存空间,反映它探索地盘的积极程度。
三、质量多样性:不只要最强,还要最广
传统的优化算法只追求一件事:找到那个最好的解。但研究团队关注的是一个更丰富的目标——“质量多样性搜索”。打个比方,普通优化算法像是只想找到全国最好的一家餐厅;而质量多样性搜索,则是想绘制一张美食地图,在地图的每个角落(代表不同风格、不同价位)都找到那个区域里最好的餐厅。
具体的实现方式叫做MAP-Elites算法。它把所有可能的“行为特征”空间划分成一个网格,每个格子只保存一个解——那个格子里迄今为止表现最优的。每一轮,算法从现有的格子里取出一个解,对它进行变异,评估新解的行为特征,再把它放进对应的格子。如果那个格子原本空着,就新开一格;如果原来已有解,就比较一下谁更优秀,优胜者留下。
衡量搜索质量有两个核心指标:一个是“覆盖率”,即有多少比例的格子被填满了;另一个是“QD分数”,即所有被占用格子里的解的总适应度之和。QD分数同时奖励广度(覆盖更多格子)和深度(每个格子里的解更强)。
此外,团队还额外评估了一个“泛化能力”指标:取一组由真人玩家编写的Core War程序作为测试集,看看搜索到的最佳程序能击败或战平其中多大比例。这个指标更贴近现实应用——毕竟,一个只会打败自己同门师兄弟的程序,面对外部世界未必管用。
四、数字红皇后:对手越来越强的军备竞赛
在介绍DEI框架之前,还需要理解它所扩展的那个基础框架——“数字红皇后”(Digital Red Queen)。
“红皇后”这个名字来自《爱丽丝梦游仙境》中的意象:在红皇后的国度,你必须不停地奔跑,才能停在原地。在进化生物学中,这描述的是一种军备竞赛现象:捕食者必须持续进化得更快,因为猎物也在持续进化得更快,双方都不得不不断进步,只是为了维持相对的竞争力。
数字红皇后框架把这种军备竞赛引入了MAP-Elites搜索。具体做法是:每轮结束时,把那一轮表现最好的程序(称为“冠军”)保存下来,下一轮中将它们作为对手。随着搜索进行,对手池越来越强,搜索压力也越来越大,推动程序持续进化,跳出局部最优。
这套框架原本只在单个节点、单个模型上运行。Gensyn团队将其扩展成一个分布式的多节点版本,关键在于:每个节点使用不同的大语言模型。
五、DEI的核心机制:异质化的平行认知
DEI框架的工作方式,可以用一场多团队寻宝比赛来理解。四个探险队在同一片地图上行动,每队都有自己独特的专长和直觉。他们独立探索,但每轮结束后,每个队伍会把自己本轮发现的最好宝藏的坐标广播给其他人。其他队伍收到这个消息后,可以做两件事:一是把这个“外来宝藏”放进自己的宝藏库,填补自己还没去过的地方;二是把找到这个宝藏的对手当作下一轮需要超越的“对手标准”。
在DEI中,四个节点分别运行着GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2和Claude Haiku 4.5这四种不同的大语言模型。每个节点在本地独立运行MAP-Elites搜索:10%的时间,模型直接从头生成一个全新的程序;90%的时间,模型从当前档案库中随机取出一个现有程序,生成它的改进变体。生成的新程序被放入模拟器中与对手池战斗,计算适应度,然后根据其行为特征决定是否进入档案库的某个格子。
每轮结束时,每个节点挑出自己档案库中适应度最高的程序作为“冠军”,通过一套叫GossipSub的异步通信协议广播给其他节点。收到外来冠军的节点,会把这个程序加入自己的对手池(提升竞争压力),同时,如果这个外来冠军占据的行为特征格子在自己档案库里是空的,就直接把它放进去(填补自己的盲区)。
这里的“异步”二字至关重要。不同模型的响应速度差异悬殊——一个运行在普通笔记本上的本地开源模型,每次调用可能需要十几秒;而一个云端的前沿模型可能不到两秒就完成一次回复。如果要求所有节点同步等待最慢的那个,整个系统就会被拖慢。DEI的全异步设计让每个节点各自按自己的速度前进,不需要等任何人,也不设置任何同步屏障。这意味着,即使加入一个速度很慢的节点,它的贡献(比如发现独特行为区域的能力)依然有价值,不会拖累快的节点。
从原论文中的Figure 1可以直观地看到这一机制的效果:在早期轮次,每个节点凭借自己模型的倾向,在档案库的不同区域形成了各自独特的分布——节点1的发现集中在一片区域,节点2的集中在另一片,节点3和节点4各占一隅。随着异步冠军共享的进行,到了下一轮,四个节点的档案库开始彼此渗透,每个节点都获得了来自其他模型的“盲区填充”。
六、实验设计:控制变量,分离“多样性”与“算力”
为了确保实验结论的可靠性,研究团队做了一个关键的设计决策:保持总的LLM调用次数完全一致。
三种实验条件被对比:单节点基线(Solo DRQ)——一个节点、一个模型,每轮运行250次迭代;同质化集成(Homogeneous Ensemble)——四个节点、同一个模型,每节点每轮运行约62次迭代,总共约248次,与单节点相当;异质化集成(Diverse Ensemble)——四个节点、四种不同模型,同样每节点约62次迭代。同质化集成针对四种模型分别跑了一遍,得到四个不同的同质化基线。
这样设计的目的,是把“更多算力带来的提升”和“模型多样性带来的提升”彻底分开。如果异质化集成的表现好于同质化集成,而两者使用的总计算量相同,那么唯一的解释就是多样性本身起了作用,而不是因为用了更多算力。
MARS模拟器的配置在所有条件下保持一致:内存大小8000条指令,每场战斗最多运行80000个周期,每对程序对战20轮,初始位置随机放置。
七、实验结果:数字说话
实验结果从两个层面进行了汇报。
在个体节点层面,原论文中的Table 2展示了每种模型在三种条件下的“峰值泛化能力”和“生态位新颖性”两个指标。泛化能力就是前面说的,对外部真人程序的胜率。生态位新颖性则是衡量从其他节点收到的冠军中,有多大比例落在了自己档案库尚未开发的格子里——这是衡量跨节点交流有没有带来真正新颖信息的指标。
以Claude Sonnet 4.6为例:在单节点条件下,峰值泛化能力是0.775(约77.5%的真人程序被击败或战平);在同质化集成中,这个数字上升到0.825;在异质化集成中,进一步上升到0.850。生态位新颖性方面,同质化集成中平均有34.8%的外来冠军落入新格子,而在异质化集成中,这个比例上升到48.3%。这意味着来自不同模型的冠军,确实在填补本节点模型从未探索过的行为区域。
GPT-5.2的情况更明显:单节点泛化能力0.650,同质化集成0.700,异质化集成0.767。同质化集成中生态位新颖性仅有9.1%,而异质化集成中达到45.4%。Claude Haiku 4.5在单节点和同质化集成之间几乎没有提升(0.650对0.538,同质化集成反而更低),但在异质化集成中跃升到0.700,生态位新颖性达到44.3%,远高于同质化的13.9%。
在合并档案层面,原论文中的Table 3呈现了最终轮次将所有节点档案库合并后(保留每个格子最优解)的覆盖率和QD分数对比。单节点基线的覆盖率是63.0%,QD分数是20.46;同质化集成合并后覆盖率59.0%,QD分数29.85(覆盖率反而低于单节点,但QD分数更高,说明每个格子的解更强,但格子数更少);异质化集成合并后覆盖率80.6%,QD分数45.90——这意味着比单节点整整高出124%的QD分数,以及28%更高的覆盖率。
原论文中的Figure 2展示了各轮次中冠军泛化能力的变化趋势,对四种模型分别绘制了三条曲线。在所有四个子图中,异质化集成的曲线都在终点处处于最高位,同质化集成次之或接近,单节点通常最低。
Figure 3展示了合并档案QD分数随轮次的变化。在相同计算预算下,异质化集成和同质化集成都从第一轮起就超越了单节点,而异质化集成在最终轮次时在覆盖率上领先。同质化集成在某些中间轮次的QD分数峰值上偶尔领先,但到了最后,从Table 3的最终轮结果来看,异质化集成在覆盖率和QD分数两个维度都是最优。
八、为什么多样性真的有效:从直觉到机制
这些数字背后的道理并不复杂,但值得深入说说。
每个大语言模型的训练数据、架构和对齐方式不同,导致它们在生成代码时有不同的“偏好分布”。一个模型可能天然倾向于生成短小精悍、执行速度极快的攻击程序;另一个模型可能偏爱防御型的“城堡”结构;第三个可能擅长生成扫描型程序;第四个可能在某类特定指令组合上有独特技巧。
当只用一个模型时,即使重复调用很多次,它的偏好分布不会改变,它的盲区始终是盲区。当把四个不同的模型放在四个节点上并行探索时,每个模型的偏好分布互相补充,四者的联合覆盖范围远大于任何单一分布。
生态位新颖性指标直接证实了这一点:在同质化集成中,其他节点发来的冠军只有约9%到35%落在本节点的新格子里,因为大家用的是同一个模型,发现的东西自然高度重叠;在异质化集成中,这个比例跃升到43%到48%,说明来自不同模型的发现对彼此来说真的是新信息,真的在填补盲区。
这与强化学习和多智能体推理领域的一系列相关研究不谋而合。DARLING框架同时优化质量奖励和语义多样性信号,发现多样性能提升创意写作和数学竞赛任务的表现;DIVER框架在可验证奖励强化学习中加入序列级多样性内在奖励,提升了推理任务的通过率;多智能体辩论方法通过让多个大模型互相辩论来激发发散思维,解决单模型自我反思容易陷入思维退化的问题。DEI的实验结果与这些研究共同指向同一个方向:主动引入生成多样性,而不仅仅依赖随机采样,能带来可测量的探索增益。
九、局限与未来方向
研究团队在讨论部分相当诚实地指出了研究的边界。目前所有实验都在Core War这一个领域进行,这个领域的好处是有清晰的适应度函数和明确定义的行为特征空间。对于行为特征空间不那么结构化、或者适应度评估代价更高昂的领域,这些发现是否同样成立,还需要进一步验证。团队明确表示,虽然没有理论原因认为这些发现不会推广,但目前的实证结果严格说只限于Core War域内。
此外,从Figure 3可以看出,QD分数曲线在不同条件下都有较大波动,说明结果存在一定的随机性。研究中可用的实验重复次数有限(异质化集成只有n=3次运行,同质化集成n=4次,单节点n=7次),更多的重复实验会进一步增强统计置信度。
团队还提出了几个有意思的后续探索方向:一是“自适应拓扑”——动态连接那些档案库最互补的节点对,让信息流动更有针对性;二是“差异化行为特征轴”——让每个节点跟踪不同维度的行为特征,从而覆盖更高维度的行为空间;三是把这套框架扩展到Core War以外的多智能体协作任务。
十、技术实现:让不同速度的节点和谐共存
对于对技术细节感兴趣的读者,DEI的网络层实现也很值得介绍。
节点间的通信建立在一种叫做Yggdrasil的覆盖网络上,这套网络为每个节点分配一个基于公钥的稳定IPv6地址,并通过分布式生成树路由方案实现NAT穿透——这意味着即使节点在家用路由器或防火墙后面,也不需要手动配置端口转发就能参与协作。这对于分布式协作的普及性来说,是一个相当重要的设计。
连接Yggdrasil网络层和DRQ应用层的,是一个由Gensyn AI开发的开源工具叫做AXL。AXL是一个用Go语言编写的程序,嵌入了Yggdrasil核心,并对外暴露一个本地HTTP接口。应用程序只需与这个本地接口通信,无需直接管理网络套接字。AXL有四层架构:接受应用请求的HTTP API层,将到来的TCP消息分发给对应处理器的入站消息复用层,不需要root权限的用户空间TCP/IP协议栈(基于gVisor),以及管理节点密钥和路由的Yggdrasil核心层。
DEI只使用AXL提供的三个接口:发送消息(POST /send)、接收消息(GET /recv)、以及查询本节点身份和当前对等节点列表(GET /topology)。
实际的消息传播协议采用了GossipSub——这是一种在区块链网络(如以太坊2.0和Filecoin)中广泛使用的、具有攻击弹性的消息传播协议。GossipSub维护每个主题下D个对等节点的“网格”,并向网格成员主动推送完整消息载荷。DEI实验中使用D=3,这意味着消息在N个节点中传播的跳数是O(log N)量级——对于四个节点来说,几乎一跳就能到达所有人。网格之外,节点通过IHA VE控制消息懒惰地宣告自己拥有某条消息,对方如果没有,可以用IWANT请求。每秒一次的心跳触发网格修复操作,确保节点加入或离开时系统能自我调整。
归根结底,这项研究回答的问题听起来很技术,但启示却相当朴素。当你用多个拥有不同“思维习惯”的AI协同工作时,它们能覆盖彼此的盲区,找到任何单一AI都无法独立发现的解决方案——而且这种收益并不需要更多的计算资源,只需要让“多样性”真正发生。在Gensyn的实验中,四个协作的异质AI以与一个单独AI完全相同的调用次数,找到了覆盖率多出28%、综合质量得分多出124%的程序集合。这不是算力的胜利,是认知多样性的胜利。
至于这种思路能否迁移到更广泛的领域——代码生成、数学证明、药物设计,乃至更复杂的开放性问题——目前还是一个开放的问题。但Core War这个古老的编程竞技场,意外地成了一块清晰的试金石。
Q&A
Q1:DEI框架和普通的多个AI并行搜索有什么区别?
A:普通的并行搜索只是把同一个AI模型复制成多份同时跑,多样性只来自随机采样的运气。DEI框架则是故意选用不同家族的大模型(比如GPT系列和Claude系列同时参与),让每个模型的不同“思维习惯”覆盖彼此的盲区。实验证明,在相同的总调用次数下,用不同模型的效果比用同一模型跑多份要好得多,覆盖率高出约28%,综合质量分数高出约124%。
Q2:Core War是什么,为什么要用它来做实验?
A:Core War是一个1980年代发明的编程竞技游戏,玩家用一种叫Redcode的汇编语言写小程序,放进虚拟内存里互相厮杀,目标是让对方程序崩溃。研究团队选它是因为它的规则清晰、胜负判定明确,程序的行为特征可以被量化成两个数字,非常适合用来测试质量多样性搜索的效果。
Q3:DEI框架里节点之间怎么交换信息,速度慢的节点会不会拖累快节点?
A:节点之间通过一种叫GossipSub的协议异步传递每轮的“冠军程序”,不需要等待任何人,各自以自己的速度前进。速度慢的节点(比如本地运行的开源模型)不会拖累快节点,反而因为它有独特的发现视角,依然能为整个系统贡献来自不同分布的新信息。
