谷歌与DeepMind联手推进人工智能进化之路

首页

热心网友

转载

2026-05-15

这项由谷歌、谷歌DeepMind与威斯康星大学麦迪逊分校合作的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.07039。

一、当AI学会“复盘”：从机械搜索到经验内化

许多复杂问题的答案，并非直接查询可得，而是需要通过反复“尝试”来探索。例如，如何设计更稳定的蛋白质结构、寻找更优的服务器负载均衡算法，或是优化视频推荐系统的精准度。这类问题通常没有标准答案，其“优劣”必须通过实际运行来验证，过程往往耗时费力。

近年来，一个显著趋势是让大型语言模型——即具备文本生成和代码编写能力的AI——来承担这种“边试边改”的探索性工作。其基本流程是：AI审视当前最佳方案，提出修改建议，测试新方案效果，保留更优者，并循环此过程。这套方法被称为“进化搜索”，其逻辑类似于生物进化，通过迭代筛选逼近最优解。

该思路已在数学发现、算法优化等领域取得显著成果。例如，谷歌的AlphaEvolve就采用类似方法，在矩阵乘法、圆填充等经典难题上刷新了纪录。然而，一个核心问题也随之凸显：在多数进化搜索系统中，AI的“决策策略”是固定不变的。它并未从历次成功与失败中真正学习，只是机械地重复同一套提议逻辑。换言之，搜索经验虽被记录，却未被“内化”为AI自身的判断力。

这好比一位棋手，每局对弈后只存档记录，从不复盘。历史数据就在眼前，却未能转化为真正的“棋感”或直觉。

而本论文提出的PACEvolve++，正是为了解决这一关键瓶颈而生。

二、架构分离：让“战略家”与“执行者”各司其职

为了让AI在搜索过程中真正学会“哪些方向值得探索”，研究团队设计了一个巧妙的双模型架构：将“决定尝试什么”（战略决策）和“具体实现代码”（战术执行）两项职责，分配给两个独立的AI模型。

负责“决定尝试什么”的，是一个被称为顾问模型的角色。它参数量较小，但可通过强化学习持续优化其决策偏好。在每一轮搜索开始时，它会综合分析当前最优方案、过往搜索历史与失败记录，进行头脑风暴，生成若干候选方向，评估其新颖性与潜力，最终挑选出最具希望的一个，并用自然语言进行描述。

负责“具体编写代码”的，则是一个更强大的前沿代码模型。它接收顾问提供的方向描述，并将其准确翻译为可实际运行的程序代码。

这种分工具有深刻的现实考量。在复杂的机器学习工程任务中，一个仅数十亿参数的小模型，往往难以可靠地将一个复杂的抽象思路完整无误地实现——代码可能出错，逻辑可能存在漏洞。结果便是，我们无法区分一次失败究竟是源于想法本身不佳，还是仅仅因为代码实现有误。当训练信号被实现质量所污染，AI便难以习得真正有价值的搜索判断力。

将两者分离，使得强化学习能够专注于训练“想法的质量”，而不受代码实现能力高低的干扰。顾问模型所学到的，是“在此类问题中，何种方向通常能带来突破”这种隐性的搜索直觉，而非如何正确调用某个特定Python库的语法细节。

三、进化搜索的双阶段困境：需要动态适应的奖励机制

将顾问模型与代码模型分离，解决了“由谁来学习”的问题。但更棘手的挑战在于：这个顾问模型应如何从搜索过程中获取有效的反馈并进行学习？

强化学习的核心逻辑是：做出决策后，若结果好则增强该决策的概率，反之则减弱。但在进化搜索的语境下，“结果好坏”的定义会随着搜索进程发生根本性变化。

可以用登山比赛来类比这个过程。比赛初期，各队伍选择的路线差异巨大，有人走山脊，有人沿溪谷，海拔差距明显。此阶段，很容易判断哪条路线更有前途，反馈信号清晰有力。然而，当所有队伍都接近山顶时，大家挤在同一片狭小区域，彼此高度相差无几。此时，微小的海拔差异很可能只是测量误差。若仍简单地采用“谁高就奖励谁”的规则，反而会引入噪声，导致训练混乱。

进化搜索中的奖励信号，正经历了这样一个从清晰到模糊、从差异显著到高度收敛的过程。早期，不同候选方案在机制和质量上差异悬殊，传统的“组内相对评分”方法非常有效——只需将本轮所有尝试的得分进行标准化，即可获得清晰的好坏信号。但到了后期，当所有方案都演变为当前最佳方案的微调版本时，奖励分数会高度集中，组内相对评分法会将微小的数值差异放大成夸张的梯度信号，导致训练不稳定，如同将显微镜下的噪点误认为真实特征。

另一方面，一些研究采用了“最大化前k个结果”的目标。这种方法专注于让最好的几个候选方案脱颖而出，但其问题在于过早地将资源集中于少数方向，导致探索的多样性迅速枯竭——好比登山队尚未抵达半山腰就全部挤进同一条小路，一旦此路不通，便陷入僵局。

研究团队对这两种困境进行了清晰诊断。实验图像显示，基线方法的策略熵（衡量探索多样性的关键指标）会急剧下跌或剧烈震荡，梯度更新幅度也会出现突刺式飙升，这些都是训练失稳的典型信号。

四、相位自适应强化学习：动态切换的智能评估尺

针对上述困境，研究团队设计了一套名为“相位自适应强化学习”的创新训练方法。其核心思想是：在搜索的不同阶段，动态采用最适合的方式为顾问模型提供学习信号。

在搜索早期，即各方案差异显著的探索阶段，使用“组内原始相对得分”作为主要信号。具体而言，是将每个候选方案的得分减去本轮的平均分，保留一个直接反映相对优劣的信号，而不进行过度的归一化压缩。同时，团队借鉴了“不对称裁剪”技术，确保那些出现概率较低但结果优异的探索方向，仍能获得足够的正向激励，避免模型过早排斥这些有价值的小概率尝试。

在搜索后期，即各方案性能已非常接近的精细优化阶段，则切换为一种名为“SLOO前沿贡献信号”的方法。这种方法的逻辑在于：与其追问“你这次比平均水平高了多少”，不如判断“如果随机抽取k个候选方案，你是否贡献了其中的最高分”。换言之，它奖励的不是相对的高低，而是“是否推动了当前性能的最优边界”。这种信号对奖励的绝对大小不敏感，即使所有方案的分数紧密聚集，它依然能稳健地识别出真正带来边际改进的那个。

对应于这两个阶段的两种信号，在整个训练过程中被设计为线性混合：初始阶段完全依赖组内相对信号，随着搜索推进，平滑地增加前沿贡献信号的权重，直至训练结束时完全转向后者。这个过渡是连续渐变的，而非生硬切换，如同调光旋钮让两种光线自然融合。

为避免两种信号因数值范围差异导致训练不稳定，研究团队在混合前会对每种信号分别进行标准化处理，将其缩放至同一尺度后再按比例相加。当检测到某个信号的方差低于一个极小的阈值——意味着该信号已退化为纯粹的数值噪声——系统会直接跳过本轮梯度更新，防止噪声污染模型参数。

研究团队还为这套方法提供了严谨的数学论证，证明了无论奖励因搜索收敛被压缩到多小，经过标准化后，两种信号都能维持一个有界的、有意义的信用分配结构，不会因奖励尺度的变化而失效。

五、进度归一化奖励：统一多任务评估的标尺

进化搜索常常需要处理多样化的目标任务：有些指标追求最大化（如准确率），有些则追求最小化（如误差），且其数值范围千差万别。若直接将原始数值用于强化学习训练，无异于用同一把尺子同时测量体重和身高，必然导致混乱与不稳定。

为此，研究团队设计了一套“进度归一化奖励”机制。它将每个任务的当前得分，换算成一个0到1之间的“进度比例”——0代表任务初始状态，1代表理想目标状态——然后再线性映射到0到5的统一奖励区间。如果某次评估运行失败或产生无效结果，则直接赋予-1的惩罚分数。通过这种方式，无论面对何种任务、何种量纲的指标，训练信号都被归一化到同一尺度，模型得以从中进行稳定、高效的学习。

六、实战检验：在三大真实场景中超越基线

研究团队在三个源自真实工业和科研场景的任务上，系统性地测试了PACEvolve++的性能，并与多种主流基线方法进行了全面比较。

任务一：专家并行负载均衡算法优化
该任务来源于DeepSeek公司的混合专家模型服务系统。这类模型在运行时，需将不同计算子任务动态分配给不同的“专家”子网络。如何将这些专家智能地分配到各计算设备上，使得每台设备的计算负载尽可能均衡，同时分配算法本身要高效低耗，是一个经典的算法设计优化问题。AI需要自动发现一套高效的分配策略，评估指标是负载均衡性与算法执行速度的算术平均。

任务二：序列化视频推荐模型进化
具体是在KuaiRec数据集上，进化出一个性能更优的“下一个视频推荐模型”。该数据集来自快手短视频平台，包含约7176个用户、10728个视频内容项目和1250万条用户交互记录。AI可调整的范围包括用户序列特征的构建方式、编码器的神经网络架构、评分模块的逻辑设计等。评估指标是NDCG@10、命中率@10和MRR的均值，每次评估需完整训练推荐模型16轮，最长允许耗时20分钟。

任务三：蛋白质组合突变适应度预测
该任务源自一篇发表在《科学》杂志上的真实蛋白质工程研究。当蛋白质在多个氨基酸位点同时发生突变时，如何准确预测这种组合突变对蛋白质功能（适应度）的影响，是领域内的核心挑战。实验设定是：AI只能看到单点突变和双点突变的训练数据，然后需要预测三个或更多位点同时发生突变的结果。评估指标是预测值与真实值之间的皮尔逊相关系数和Precision@5的加权组合。

在这三个任务中，所有对比方法都在同一套PACEvolve搜索框架内运行，核心区别仅在于训练顾问模型时所使用的强化学习算法不同。测试涵盖了ThetaEvolve使用的GRPO、TTT-Discover使用的熵加权目标、纯PKPO以及无强化学习的随机搜索基线，最后与PACEvolve++进行对比。测试使用了两种参数规模的开源模型作为顾问，代码实现则统一交由强大的Gemini模型完成。

结果显示，PACEvolve++在三个任务上都取得了最高的最终性能得分，且收敛速度最快。在负载均衡任务上，PACEvolve++与无强化学习的基线最终都达到了接近理论最优的饱和解，但前者仅用了后者约一半的迭代次数便达成目标。在推荐系统和蛋白质预测任务上，PACEvolve++收敛到了比所有基线方法都更高的性能天花板。

辅助诊断指标的表现同样具有说服力：ThetaEvolve在训练后期频繁出现梯度范数的尖峰式飙升，印证了奖励压缩后方差爆炸的问题；Max@k方法的策略熵从约1.0单调下跌至0.4以下，表明其探索多样性过早崩溃；TTT-Discover的训练过程则在多个任务上出现了熵值的急剧塌缩。相比之下，PACEvolve++的梯度范数始终平稳地维持在1附近的窄幅区间内，策略熵也保持在比Max@k高得多的健康水平，整个训练过程平稳而有序。

从分项指标看，各方法找到的最优方案在不同维度上各有侧重。例如在负载均衡任务中，有的方案更侧重于极致均衡但速度稍慢，有的则追求极速但均衡性略逊，这说明各方法探索的是同一个帕累托前沿上的不同最优解。PACEvolve++在综合得分上领先，但并非在每一个单项指标上都占优，这客观反映了多目标优化中性能权衡的普遍存在。

七、分工的必要性：为何不采用端到端大模型？

一个很自然的疑问是：既然最终目标是进行强化学习，为何不直接训练一个庞大的端到端模型，让它同时负责构思想法和编写代码？这样岂不是架构更简单？

研究团队在论文中对此有明确回应，并在附录中做了专门分析。他们发现，对于本研究所涉及的三个任务的代码复杂度而言，一个仅有40亿到80亿参数的小模型，端到端生成完整、正确修改代码的成功率极低——代码经常无法运行，或运行后逻辑存在错误。在这种情况下，奖励信号主要反映的是“代码是否写对”，而非“想法方向是否优质”。于是，ThetaEvolve风格的端到端训练在这些任务上根本无法有效工作，强化学习的信号被大量实现错误的噪声所淹没。

这一发现具有普遍意义：在模型能力有限、任务实现复杂度高的现实场景中，将策略学习与代码实现能力强耦合在一起，往往会导致两者都无法学好。顾问与实现者的职能分工，是在计算资源受限条件下一个切实有效的工程解决方案，而不仅仅是一个理论上的优雅设计。

八、研究的启示与未来展望

归根结底，PACEvolve++的核心贡献在于让AI在一次次搜索尝试中，真正学会积累并运用“什么值得尝试”的经验。它不满足于让AI的搜索经验仅仅临时存储在上下文窗口中，而是致力于将这些经验沉淀、内化为模型参数中稳定的判断偏好与直觉。

此事的意义深远：如果搜索过程中的经验仅靠上下文存储，那么每次重启搜索，AI都需从头开始摸索；而如果经验能内化为模型的决策习惯，那么AI对某一类问题搜索得越多，其搜索直觉就越敏锐，效率也越高。这是一种更接近人类专家成长路径的学习范式。

当然，本研究也坦诚指出了其局限性。由于强化学习训练本身的计算成本高昂，加上每次评估候选方案都需要完整训练一个机器学习模型，整体实验开销巨大。因此，研究团队未能进行多次重复实验以验证统计显著性，也未能在更长的搜索周期上检验方法的长期效果。未来，随着代码生成模型能力的进一步提升，或许可以探索让参数更小的模型也能可靠实现复杂想法，从而进一步探索端到端优化的可能性。

一个值得深思的延伸问题是：如果进化搜索本身能持续产生“可供学习的内化经验”，那么随着时间推移，AI在特定专业领域内的搜索效率是否会呈现指数级的提升？这种“越搜索越聪明”的能力，与人类专家依靠长期经验积累来提升专业判断力的过程，存在多少本质上的相似性？这或许是人工智能与自动化科学发现交叉领域中，下一个值得深入探索的方向。

常见问题解答 (Q&A)

Q1：PACEvolve++中的顾问模型和代码模型具体分工是什么？
A：顾问模型核心职责是进行“战略决策”，即“决定尝试什么方向”。它会综合分析当前最优方案和历史搜索记录，生成多个候选研究方向，评估其新颖性与潜力，并筛选出最有希望的一个，用自然语言描述出来。代码模型则负责“战术执行”，即“如何编写代码”，将顾问给出的抽象方向准确翻译成可实际运行的程序代码。这种分工的核心优势在于，使强化学习能够纯净地学习“想法质量”，免受代码实现错误引入的噪声干扰。

Q2：相位自适应强化学习为何需要在不同搜索阶段切换激励方式？
A：这是因为进化搜索前期和后期的任务特性截然不同。搜索早期，候选方案差异巨大，“组内相对打分”能清晰、直接地反映方案的相对优劣。但到了搜索后期，所有方案性能都接近最优，分数高度集中，此时若仍使用相对打分，会将微小的随机波动（噪声）放大成虚假的强梯度信号，导致训练不稳定。因此，后期改用“前沿贡献信号”，它只关注某个方案是否改进了当前已知的最优结果，对奖励的绝对值不敏感，从而在收敛阶段也能提供稳定的训练信号。两种信号在训练过程中会平滑过渡、混合使用。

Q3：PACEvolve++在蛋白质适应度预测任务中具体优化了什么？
A：在该任务中，PACEvolve++需要解决的核心问题是：仅使用单点和双点突变的训练数据，来预测三个及以上位点同时发生组合突变对蛋白质功能的影响。系统通过顾问模型不断提出改进方向，这些方向可能涉及突变特征的表示方法、突变位点间相互作用的建模方式、模型正则化策略等。代码模型将这些方向实现为具体代码并进行评估，优化目标为预测值与真实值之间的皮尔逊相关系数和Precision@5的加权得分。最终，PACEvolve++在该任务上取得了超越所有基线方法的综合性能。

来源:https://www.techwalker.com/2026/0515/3187087.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：对话APUS李涛揭秘AI转型大模型蒸馏训练与中小模型沉淀下一篇：3D机器视觉平台是伪命题吗技术现状与应用前景分析