首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌与DeepMind联手推进人工智能进化之路

谷歌与DeepMind联手推进人工智能进化之路

热心网友
29
转载
2026-05-15

这项由谷歌、谷歌DeepMind与威斯康星大学麦迪逊分校合作的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.07039。

一、当AI学会“复盘”:从机械搜索到经验内化

许多复杂问题的答案,并非直接查询可得,而是需要通过反复“尝试”来探索。例如,如何设计更稳定的蛋白质结构、寻找更优的服务器负载均衡算法,或是优化视频推荐系统的精准度。这类问题通常没有标准答案,其“优劣”必须通过实际运行来验证,过程往往耗时费力。

近年来,一个显著趋势是让大型语言模型——即具备文本生成和代码编写能力的AI——来承担这种“边试边改”的探索性工作。其基本流程是:AI审视当前最佳方案,提出修改建议,测试新方案效果,保留更优者,并循环此过程。这套方法被称为“进化搜索”,其逻辑类似于生物进化,通过迭代筛选逼近最优解。

该思路已在数学发现、算法优化等领域取得显著成果。例如,谷歌的AlphaEvolve就采用类似方法,在矩阵乘法、圆填充等经典难题上刷新了纪录。然而,一个核心问题也随之凸显:在多数进化搜索系统中,AI的“决策策略”是固定不变的。它并未从历次成功与失败中真正学习,只是机械地重复同一套提议逻辑。换言之,搜索经验虽被记录,却未被“内化”为AI自身的判断力。

这好比一位棋手,每局对弈后只存档记录,从不复盘。历史数据就在眼前,却未能转化为真正的“棋感”或直觉。

而本论文提出的PACEvolve++,正是为了解决这一关键瓶颈而生。

二、架构分离:让“战略家”与“执行者”各司其职

为了让AI在搜索过程中真正学会“哪些方向值得探索”,研究团队设计了一个巧妙的双模型架构:将“决定尝试什么”(战略决策)和“具体实现代码”(战术执行)两项职责,分配给两个独立的AI模型。

负责“决定尝试什么”的,是一个被称为顾问模型的角色。它参数量较小,但可通过强化学习持续优化其决策偏好。在每一轮搜索开始时,它会综合分析当前最优方案、过往搜索历史与失败记录,进行头脑风暴,生成若干候选方向,评估其新颖性与潜力,最终挑选出最具希望的一个,并用自然语言进行描述。

负责“具体编写代码”的,则是一个更强大的前沿代码模型。它接收顾问提供的方向描述,并将其准确翻译为可实际运行的程序代码。

这种分工具有深刻的现实考量。在复杂的机器学习工程任务中,一个仅数十亿参数的小模型,往往难以可靠地将一个复杂的抽象思路完整无误地实现——代码可能出错,逻辑可能存在漏洞。结果便是,我们无法区分一次失败究竟是源于想法本身不佳,还是仅仅因为代码实现有误。当训练信号被实现质量所污染,AI便难以习得真正有价值的搜索判断力。

将两者分离,使得强化学习能够专注于训练“想法的质量”,而不受代码实现能力高低的干扰。顾问模型所学到的,是“在此类问题中,何种方向通常能带来突破”这种隐性的搜索直觉,而非如何正确调用某个特定Python库的语法细节。

三、进化搜索的双阶段困境:需要动态适应的奖励机制

将顾问模型与代码模型分离,解决了“由谁来学习”的问题。但更棘手的挑战在于:这个顾问模型应如何从搜索过程中获取有效的反馈并进行学习?

强化学习的核心逻辑是:做出决策后,若结果好则增强该决策的概率,反之则减弱。但在进化搜索的语境下,“结果好坏”的定义会随着搜索进程发生根本性变化。

可以用登山比赛来类比这个过程。比赛初期,各队伍选择的路线差异巨大,有人走山脊,有人沿溪谷,海拔差距明显。此阶段,很容易判断哪条路线更有前途,反馈信号清晰有力。然而,当所有队伍都接近山顶时,大家挤在同一片狭小区域,彼此高度相差无几。此时,微小的海拔差异很可能只是测量误差。若仍简单地采用“谁高就奖励谁”的规则,反而会引入噪声,导致训练混乱。

进化搜索中的奖励信号,正经历了这样一个从清晰到模糊、从差异显著到高度收敛的过程。早期,不同候选方案在机制和质量上差异悬殊,传统的“组内相对评分”方法非常有效——只需将本轮所有尝试的得分进行标准化,即可获得清晰的好坏信号。但到了后期,当所有方案都演变为当前最佳方案的微调版本时,奖励分数会高度集中,组内相对评分法会将微小的数值差异放大成夸张的梯度信号,导致训练不稳定,如同将显微镜下的噪点误认为真实特征。

另一方面,一些研究采用了“最大化前k个结果”的目标。这种方法专注于让最好的几个候选方案脱颖而出,但其问题在于过早地将资源集中于少数方向,导致探索的多样性迅速枯竭——好比登山队尚未抵达半山腰就全部挤进同一条小路,一旦此路不通,便陷入僵局。

研究团队对这两种困境进行了清晰诊断。实验图像显示,基线方法的策略熵(衡量探索多样性的关键指标)会急剧下跌或剧烈震荡,梯度更新幅度也会出现突刺式飙升,这些都是训练失稳的典型信号。

四、相位自适应强化学习:动态切换的智能评估尺

针对上述困境,研究团队设计了一套名为“相位自适应强化学习”的创新训练方法。其核心思想是:在搜索的不同阶段,动态采用最适合的方式为顾问模型提供学习信号。

在搜索早期,即各方案差异显著的探索阶段,使用“组内原始相对得分”作为主要信号。具体而言,是将每个候选方案的得分减去本轮的平均分,保留一个直接反映相对优劣的信号,而不进行过度的归一化压缩。同时,团队借鉴了“不对称裁剪”技术,确保那些出现概率较低但结果优异的探索方向,仍能获得足够的正向激励,避免模型过早排斥这些有价值的小概率尝试。

在搜索后期,即各方案性能已非常接近的精细优化阶段,则切换为一种名为“SLOO前沿贡献信号”的方法。这种方法的逻辑在于:与其追问“你这次比平均水平高了多少”,不如判断“如果随机抽取k个候选方案,你是否贡献了其中的最高分”。换言之,它奖励的不是相对的高低,而是“是否推动了当前性能的最优边界”。这种信号对奖励的绝对大小不敏感,即使所有方案的分数紧密聚集,它依然能稳健地识别出真正带来边际改进的那个。

对应于这两个阶段的两种信号,在整个训练过程中被设计为线性混合:初始阶段完全依赖组内相对信号,随着搜索推进,平滑地增加前沿贡献信号的权重,直至训练结束时完全转向后者。这个过渡是连续渐变的,而非生硬切换,如同调光旋钮让两种光线自然融合。

为避免两种信号因数值范围差异导致训练不稳定,研究团队在混合前会对每种信号分别进行标准化处理,将其缩放至同一尺度后再按比例相加。当检测到某个信号的方差低于一个极小的阈值——意味着该信号已退化为纯粹的数值噪声——系统会直接跳过本轮梯度更新,防止噪声污染模型参数。

研究团队还为这套方法提供了严谨的数学论证,证明了无论奖励因搜索收敛被压缩到多小,经过标准化后,两种信号都能维持一个有界的、有意义的信用分配结构,不会因奖励尺度的变化而失效。

五、进度归一化奖励:统一多任务评估的标尺

进化搜索常常需要处理多样化的目标任务:有些指标追求最大化(如准确率),有些则追求最小化(如误差),且其数值范围千差万别。若直接将原始数值用于强化学习训练,无异于用同一把尺子同时测量体重和身高,必然导致混乱与不稳定。

为此,研究团队设计了一套“进度归一化奖励”机制。它将每个任务的当前得分,换算成一个0到1之间的“进度比例”——0代表任务初始状态,1代表理想目标状态——然后再线性映射到0到5的统一奖励区间。如果某次评估运行失败或产生无效结果,则直接赋予-1的惩罚分数。通过这种方式,无论面对何种任务、何种量纲的指标,训练信号都被归一化到同一尺度,模型得以从中进行稳定、高效的学习。

六、实战检验:在三大真实场景中超越基线

研究团队在三个源自真实工业和科研场景的任务上,系统性地测试了PACEvolve++的性能,并与多种主流基线方法进行了全面比较。

任务一:专家并行负载均衡算法优化
该任务来源于DeepSeek公司的混合专家模型服务系统。这类模型在运行时,需将不同计算子任务动态分配给不同的“专家”子网络。如何将这些专家智能地分配到各计算设备上,使得每台设备的计算负载尽可能均衡,同时分配算法本身要高效低耗,是一个经典的算法设计优化问题。AI需要自动发现一套高效的分配策略,评估指标是负载均衡性与算法执行速度的算术平均。

任务二:序列化视频推荐模型进化
具体是在KuaiRec数据集上,进化出一个性能更优的“下一个视频推荐模型”。该数据集来自快手短视频平台,包含约7176个用户、10728个视频内容项目和1250万条用户交互记录。AI可调整的范围包括用户序列特征的构建方式、编码器的神经网络架构、评分模块的逻辑设计等。评估指标是NDCG@10、命中率@10和MRR的均值,每次评估需完整训练推荐模型16轮,最长允许耗时20分钟。

任务三:蛋白质组合突变适应度预测
该任务源自一篇发表在《科学》杂志上的真实蛋白质工程研究。当蛋白质在多个氨基酸位点同时发生突变时,如何准确预测这种组合突变对蛋白质功能(适应度)的影响,是领域内的核心挑战。实验设定是:AI只能看到单点突变和双点突变的训练数据,然后需要预测三个或更多位点同时发生突变的结果。评估指标是预测值与真实值之间的皮尔逊相关系数和Precision@5的加权组合。

在这三个任务中,所有对比方法都在同一套PACEvolve搜索框架内运行,核心区别仅在于训练顾问模型时所使用的强化学习算法不同。测试涵盖了ThetaEvolve使用的GRPO、TTT-Discover使用的熵加权目标、纯PKPO以及无强化学习的随机搜索基线,最后与PACEvolve++进行对比。测试使用了两种参数规模的开源模型作为顾问,代码实现则统一交由强大的Gemini模型完成。

结果显示,PACEvolve++在三个任务上都取得了最高的最终性能得分,且收敛速度最快。在负载均衡任务上,PACEvolve++与无强化学习的基线最终都达到了接近理论最优的饱和解,但前者仅用了后者约一半的迭代次数便达成目标。在推荐系统和蛋白质预测任务上,PACEvolve++收敛到了比所有基线方法都更高的性能天花板。

辅助诊断指标的表现同样具有说服力:ThetaEvolve在训练后期频繁出现梯度范数的尖峰式飙升,印证了奖励压缩后方差爆炸的问题;Max@k方法的策略熵从约1.0单调下跌至0.4以下,表明其探索多样性过早崩溃;TTT-Discover的训练过程则在多个任务上出现了熵值的急剧塌缩。相比之下,PACEvolve++的梯度范数始终平稳地维持在1附近的窄幅区间内,策略熵也保持在比Max@k高得多的健康水平,整个训练过程平稳而有序。

从分项指标看,各方法找到的最优方案在不同维度上各有侧重。例如在负载均衡任务中,有的方案更侧重于极致均衡但速度稍慢,有的则追求极速但均衡性略逊,这说明各方法探索的是同一个帕累托前沿上的不同最优解。PACEvolve++在综合得分上领先,但并非在每一个单项指标上都占优,这客观反映了多目标优化中性能权衡的普遍存在。

七、分工的必要性:为何不采用端到端大模型?

一个很自然的疑问是:既然最终目标是进行强化学习,为何不直接训练一个庞大的端到端模型,让它同时负责构思想法和编写代码?这样岂不是架构更简单?

研究团队在论文中对此有明确回应,并在附录中做了专门分析。他们发现,对于本研究所涉及的三个任务的代码复杂度而言,一个仅有40亿到80亿参数的小模型,端到端生成完整、正确修改代码的成功率极低——代码经常无法运行,或运行后逻辑存在错误。在这种情况下,奖励信号主要反映的是“代码是否写对”,而非“想法方向是否优质”。于是,ThetaEvolve风格的端到端训练在这些任务上根本无法有效工作,强化学习的信号被大量实现错误的噪声所淹没。

这一发现具有普遍意义:在模型能力有限、任务实现复杂度高的现实场景中,将策略学习与代码实现能力强耦合在一起,往往会导致两者都无法学好。顾问与实现者的职能分工,是在计算资源受限条件下一个切实有效的工程解决方案,而不仅仅是一个理论上的优雅设计。

八、研究的启示与未来展望

归根结底,PACEvolve++的核心贡献在于让AI在一次次搜索尝试中,真正学会积累并运用“什么值得尝试”的经验。它不满足于让AI的搜索经验仅仅临时存储在上下文窗口中,而是致力于将这些经验沉淀、内化为模型参数中稳定的判断偏好与直觉。

此事的意义深远:如果搜索过程中的经验仅靠上下文存储,那么每次重启搜索,AI都需从头开始摸索;而如果经验能内化为模型的决策习惯,那么AI对某一类问题搜索得越多,其搜索直觉就越敏锐,效率也越高。这是一种更接近人类专家成长路径的学习范式。

当然,本研究也坦诚指出了其局限性。由于强化学习训练本身的计算成本高昂,加上每次评估候选方案都需要完整训练一个机器学习模型,整体实验开销巨大。因此,研究团队未能进行多次重复实验以验证统计显著性,也未能在更长的搜索周期上检验方法的长期效果。未来,随着代码生成模型能力的进一步提升,或许可以探索让参数更小的模型也能可靠实现复杂想法,从而进一步探索端到端优化的可能性。

一个值得深思的延伸问题是:如果进化搜索本身能持续产生“可供学习的内化经验”,那么随着时间推移,AI在特定专业领域内的搜索效率是否会呈现指数级的提升?这种“越搜索越聪明”的能力,与人类专家依靠长期经验积累来提升专业判断力的过程,存在多少本质上的相似性?这或许是人工智能与自动化科学发现交叉领域中,下一个值得深入探索的方向。

常见问题解答 (Q&A)

Q1:PACEvolve++中的顾问模型和代码模型具体分工是什么?
A:顾问模型核心职责是进行“战略决策”,即“决定尝试什么方向”。它会综合分析当前最优方案和历史搜索记录,生成多个候选研究方向,评估其新颖性与潜力,并筛选出最有希望的一个,用自然语言描述出来。代码模型则负责“战术执行”,即“如何编写代码”,将顾问给出的抽象方向准确翻译成可实际运行的程序代码。这种分工的核心优势在于,使强化学习能够纯净地学习“想法质量”,免受代码实现错误引入的噪声干扰。

Q2:相位自适应强化学习为何需要在不同搜索阶段切换激励方式?
A:这是因为进化搜索前期和后期的任务特性截然不同。搜索早期,候选方案差异巨大,“组内相对打分”能清晰、直接地反映方案的相对优劣。但到了搜索后期,所有方案性能都接近最优,分数高度集中,此时若仍使用相对打分,会将微小的随机波动(噪声)放大成虚假的强梯度信号,导致训练不稳定。因此,后期改用“前沿贡献信号”,它只关注某个方案是否改进了当前已知的最优结果,对奖励的绝对值不敏感,从而在收敛阶段也能提供稳定的训练信号。两种信号在训练过程中会平滑过渡、混合使用。

Q3:PACEvolve++在蛋白质适应度预测任务中具体优化了什么?
A:在该任务中,PACEvolve++需要解决的核心问题是:仅使用单点和双点突变的训练数据,来预测三个及以上位点同时发生组合突变对蛋白质功能的影响。系统通过顾问模型不断提出改进方向,这些方向可能涉及突变特征的表示方法、突变位点间相互作用的建模方式、模型正则化策略等。代码模型将这些方向实现为具体代码并进行评估,优化目标为预测值与真实值之间的皮尔逊相关系数和Precision@5的加权得分。最终,PACEvolve++在该任务上取得了超越所有基线方法的综合性能。

来源:https://www.techwalker.com/2026/0515/3187087.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepMind AI首次解读第一人称视角开启视觉智能新纪元
AI
DeepMind AI首次解读第一人称视角开启视觉智能新纪元

这项由Google DeepMind与北卡罗来纳大学教堂山分校合作的前沿研究,已于2026年3月25日正式发布,其完整论文可在arXiv预印本平台通过编号2603 22529v1查阅。 想象一下:一个AI助手能熟练地操作网页,却对你眼前真实世界的一切视而不见。例如,你透过AR眼镜看中一款包,却无法让

热心网友
05.14
谷歌AI鼠标新突破:DeepMind揭秘智能指针如何精准理解用户意图
AI
谷歌AI鼠标新突破:DeepMind揭秘智能指针如何精准理解用户意图

谷歌DeepMind推出“魔法指针”AI技术,能智能理解屏幕内容与用户意图。用户只需用鼠标指向目标并说出指令,系统即可执行复杂操作,例如指向视频中的餐厅直接生成预订链接。该功能已在AIStudio演示,并将逐步集成至Chrome浏览器,实现更自然的交互体验。

热心网友
05.14
DeepMind发布AI数学研究助手 首次独立完成学术论文撰写
AI
DeepMind发布AI数学研究助手 首次独立完成学术论文撰写

2026年2月,一篇编号为arXiv:2602 10177v1的预印本论文悄然发布,它来自Google DeepMind。这篇论文所揭示的进展,或许标志着人工智能在科学探索领域的一个分水岭:AI不再仅仅是解决预设问题的工具,而是开始涉足人类知识的前沿——自主进行数学研究。 回想AlphaGo战胜世界

热心网友
05.14
DeepMind突破AI推理瓶颈:隐形思考空间解决复杂问题
AI
DeepMind突破AI推理瓶颈:隐形思考空间解决复杂问题

2024年12月,Google DeepMind团队在arXiv预印本平台发布了一项编号为arXiv:2412 17747v1的突破性研究,为提升大语言模型的推理能力开辟了一条全新的技术路径。这项研究首次实现了让AI在“隐形思考空间”中进行深度推理,无需逐字表达即可解决复杂问题。 提到人工智能的推理

热心网友
05.13
随机选择比精心挑选更有效KAIST与谷歌重新定义AI学习方式
AI
随机选择比精心挑选更有效KAIST与谷歌重新定义AI学习方式

人工智能的学习方式,正经历一场静默但深刻的范式转移。长久以来,我们习惯于为AI模型精心准备“学习资料”,就像为一位天赋异禀但记忆有限的学生,从海量信息中筛选出最精华的部分。然而,随着新一代长文本模型的出现,其“记忆容量”已能轻松容纳数百万词汇,旧有的规则是否依然适用?一项由韩国科学技术院(KAIST

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

银河麒麟系统SSH公钥登录配置与安全远程连接指南
系统平台
银河麒麟系统SSH公钥登录配置与安全远程连接指南

在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c

热心网友
05.15
银河麒麟系统登录循环故障解决方法与桌面修复指南
系统平台
银河麒麟系统登录循环故障解决方法与桌面修复指南

登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而

热心网友
05.15
GUSD稳定币详解:项目背景、核心用途与投资风险全解析
web3.0
GUSD稳定币详解:项目背景、核心用途与投资风险全解析

GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。

热心网友
05.15
Win11如何设置默认音频输出设备与调整音量
系统平台
Win11如何设置默认音频输出设备与调整音量

在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱

热心网友
05.15
宏胜集团高管变动与业务外包调整深度解析
AI
宏胜集团高管变动与业务外包调整深度解析

宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并

热心网友
05.15