首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌分布式训练开启另一轮扩展定律!百万芯片高压高故障仍然零全局停机

谷歌分布式训练开启另一轮扩展定律!百万芯片高压高故障仍然零全局停机

热心网友
39
转载
2026-04-30

谷歌最新名为Decoupled DiLoCo的研究,直接把这种锁步模式扔进了历史博物馆

如今训练最先进的大语言模型,存在一个听起来颇为荒谬的常态。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

不妨想象一下:一支由上万名抄写员组成的团队,正在共同誊写一部巨著。所有人必须步调一致,每写一个字,就要互相核对一次,确保笔迹完全相同。只要其中一人打了个喷嚏,慢了半拍,整个誊写工作就得停下来等他。

而谷歌最新一项名为Decoupled DiLoCo的研究,正是将这种“锁步”模式彻底送进了历史博物馆。

它的核心思路是,让一个庞大集群里的不同部分可以“各干各的”,再通过一种极其聪明的方式进行异步汇合。最令人惊叹的成果在于,当模拟数百万芯片在频繁故障的高压环境下训练时,这套系统实现了零全局停机时间,而模型的最终性能却丝毫未打折扣。

解构锁步的困境

当前的大模型训练,普遍采用一种称为SPMD(单程序多数据流)的范式。你可以将其理解为一个极其庞大且严苛的方阵,所有计算芯片必须保持完全一致的步调。

这种对参数一致性的绝对执念,让整个系统变得异常脆弱。一块问题芯片、一次微小的网络抖动,都足以让这个价值数亿美元的庞大集群陷入停滞。

研究团队采用了一个非常有趣的视角,类比计算机科学中的CAP定理,来重新审视模型训练的瓶颈。他们认为,传统的SPMD训练堪称“一致性原教旨主义者”——为了确保每块芯片看到的模型参数都分毫不差,不惜牺牲系统的可用性和分区容错性。

然而,在成千上万块芯片需要协同工作数月的现实场景中,硬件故障几乎如同家常便饭。每一次故障都意味着停机、等待、恢复和巨大的算力浪费,这就像一个繁忙的国际机场,仅仅因为一盏信号灯故障,就不得不关闭所有跑道。

破局之道,正是Decoupled DiLoCo。

图片

其思路简单而优雅:将铁板一块的大集群,拆分成若干个独立运作的小团队,每个团队被称为一个“学习者”。每个学习者都拥有完整的模型副本,可以在自己的数据分区上埋头训练,互不干扰。即便某个学习者遭遇硬件崩溃,其他学习者的工作也完全不受影响。

协调这些学习者的重任,则落在一个名为“同步器”的中央节点身上。但这位“调度员”从不要求所有人立正站好。它会按照预设的时间节奏,随机地向所有正在工作的学习者发出邀约,收集它们训练好的模型参数更新。关键在于,它只等待达到一个最低数量的学习者响应,就能完成一次全局参数的优化与合并。那些因为故障或网络延迟而“迟到”的学习者,会被暂时跳过,等待下一次同步机会。整个过程,训练从未停歇。

这种设计带来了实实在在的收益。一项模拟数据揭示了惊人的对比:假设单个芯片平均一年出一次故障,在一个由240万块芯片组成的庞大集群中,没有弹性功能的常规数据并行训练,系统有效工作时间仅为18%。即便加入了动态调整功能,有效工作时间也仅能提升至40%。

而当切换到Decoupled DiLoCo,并将集群拆分为16个独立学习者时,系统有效工作时间飙升至86%,系统无故障运行的时间占比更是保持了近乎完美的99%。

图片

优雅的混沌工程实验

为了验证这套框架的真正鲁棒性,研究团队做了一件很酷的事情:他们在代码中模拟了一个“修罗场”,通过混沌工程的原则,人为地注入各种故障。他们设定了故障发生的频率、恢复时间,甚至芯片处理速度的随机波动,以此来考验系统的极限。

结果令人振奋。

在一个包含8个学习者、模拟120万块芯片、故障环境极其恶劣的实验中,Decoupled DiLoCo的系统有效工作时间保持在88%,而同样条件下的传统训练模式仅有58%。

更关键的是,在应对这些混乱的同时,模型在文本和视觉任务上的最终表现,与那些在完美无故障环境下训练出的模型,依然保持了同等水平。在一个50亿参数的密集模型上,无论是平均文本得分还是视觉得分,其变化几乎可以忽略不计。

这意味着,训练团队不再需要面临“牺牲模型质量换取稳定性”或“牺牲稳定性换取质量”的艰难抉择。现在,他们可以同时拥有两者。

捡拾算力与异构硬件大一统

这种解耦架构还释放了两个令人兴奋的额外红利。

第一个是“算力撷取”。大规模训练集群的利用率很少能一直保持100%。例如,一些即将被抢占的云计算资源,或者分布在不同地理位置的闲置硬件,都可能出现临时可用的算力窗口。Decoupled DiLoCo可以像一个灵活的智能插线板,随时接入这些临时可用的算力,将其作为新的学习者加入训练。

论文展示了一个实验:当可用算力在训练过程中动态增加了300%时,模型训练不仅没有崩溃,总训练时间反而被压缩到了原来的62%,且最终性能与基线模型持平。

相比之下,传统数据并行模式由于沉重的状态传输和同步开销,在这种动态扩缩容的场景下,所能获得的时间收益要小得多。

第二个红利是“异构计算大一统”。不同代际、不同型号的芯片可以无缝地加入同一个训练任务。在一次实验中,研究者混合使用了两种不同型号的TPU,即使它们之间的处理速度存在接近20%的天然差异,通过Decoupled DiLoCo和一个聪明的自适应等待机制,系统依然能够高效运转,模型的最终效果与纯同步设置下的结果无异。

这为企业平滑过渡到新硬件,或者充分利用现有的旧硬件库存,打开了充满想象力的新空间。

上图清晰地展示了在不同同步策略下,运行速度不一的学习者们的忙碌状态。第一行是保守的“等待全部学习者到齐”模式,产生了大量空闲时间。第二行是激进的“不等待”模式,虽然忙碌,但同步过于零碎,效率不高。第三行则是论文采用的自适应策略,它在不造成无谓等待的前提下,尽可能地汇集了更多学习者的贡献,达成了效率与模型质量的绝佳平衡。

规模定律依然有效

一个始终悬在分布式训练方案头上的疑问是:这种松耦合的设计,会损害模型的最终能力吗?尤其是在模型规模和训练数据量都急剧增大的前沿探索中。

答案是否定的。论文系统地验证了从20亿到90亿参数的密集模型,以及28亿和38亿激活参数的混合专家模型。在所有模型尺度上,Decoupled DiLoCo都取得了与传统同步数据并行训练相匹配的下游任务性能。无论是对文本理解的平均得分,还是对图表、文档等多模态内容的理解能力,其差异均处在可忽略的范围内。

这项研究直接挑战了“同步是必须的”这一默认前提。它用一个极简的、异步的、对故障极度友好的系统设计,证明了一个关键观点:在大规模AI训练中,我们可以通过牺牲一些无关紧要的、瞬时的一致性,来换取更为宝贵的系统可用性和硬件容错性。

当AI训练的规模持续向物理极限扩张,当硬件集群的异构性和地理分布性日益成为常态,这种从追求“全局绝对一致”转向拥抱“局部独立、异步协同”的设计理念,很可能将成为新一代AI基础设施设计的基石。

若将大规模AI训练比作一场马拉松,那么与其让一个万人方阵踢着正步、艰难且脆弱地走向终点,不如让每个小队跑出自己的节奏与效率,最终在终点前完成一次精彩而稳健的智慧汇合。

来源:https://www.51cto.com/article/842039.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Agent的分布式结构和集中式结构哪个更好
业界动态
Agent的分布式结构和集中式结构哪个更好

在系统架构设计领域,分布式与集中式之争是个经典话题。但说实话,两者之间并没有绝对的优劣,更像是不同的工具,关键在于你手头要解决什么样的具体问题。 一、分布式结构 先来看看分布式结构。它的魅力,很大程度上源于以下几个核心优势: 高可用性:架构中的节点各自为战,却又协同工作。这意味着,即便某个节点“罢工

热心网友
04.28
分布式数据自动抓取系统
业界动态
分布式数据自动抓取系统

分布式数据自动抓取系统:一种高效的数据采集解决方案 面对海量、异构且动态变化的网络信息,单枪匹马的数据抓取方式往往力不从心。于是,分布式数据自动抓取系统应运而生。这种方案的精髓在于“协同作战”——它通过网络通信,将多台计算机组织起来,共同完成数据的抓取与处理任务,从而在效率与规模上实现质的飞跃。下面

热心网友
04.28
RPA在远程工作和分布式团队中的应用前景如何?
业界动态
RPA在远程工作和分布式团队中的应用前景如何?

RPA在远程工作和分布式团队中的应用前景:变革工作模式的“自动化引擎” 后疫情时代,远程与分布式的办公模式已然成为新常态。当团队成员散落在不同城市甚至大洲时,如何确保流程顺畅、协作高效、数据安全?这成了一线管理者和企业IT部门头疼的核心问题。正是在这种背景下,机器人流程自动化(RPA)的价值被进一步

热心网友
04.28
RPA如何支持远程工作和分布式团队?
业界动态
RPA如何支持远程工作和分布式团队?

RPA如何为远程与分布式团队注入强心剂 当远程办公成为新常态,分布式团队遍布全球时,如何保证业务像精密的机器一样无缝运转?你猜怎么着,机器人流程自动化(RPA)正在其中扮演着那个不可或缺的“隐形调度员”。它通过一系列自动化能力,为分散的团队搭建起高效、可靠的数字桥梁。具体来说,其支持体现在以下几个方

热心网友
04.27
分布式Agent智能体
业界动态
分布式Agent智能体

分布式Agent智能体 当我们谈论分布式Agent智能体时,实际上是在探讨一种源自分布式人工智能(DAI)的解决方案。这个系统由多个智能体构成——无论是软件、机器人还是其他形态的智能实体。它们逻辑上或物理上彼此分离,却能够并行运作、协同合作,共同解决复杂问题。 关键在于,每个智能体都并非被动的执行单

热心网友
04.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

《早间新闻》第五季:两个新角色暴露苹果流媒体的焦虑
娱乐
《早间新闻》第五季:两个新角色暴露苹果流媒体的焦虑

一部拿过艾美奖的旗舰剧,拍到第五季还在往配角阵容里塞人。这不是扩张,是修补。 两个新面孔,两种修补逻辑 新加入的两位,分别是Sydney Park饰演的Leah——Cory Ellison的新助理,以及Jeff Wilbusch饰演的Roman——UBN新闻部门的安保主管。 这两个角色的设置,背后是

热心网友
04.30
中国版权协会发布微短剧“通知—删除”规则工作指南,强化侵权打击与跨平台联合惩处
娱乐
中国版权协会发布微短剧“通知—删除”规则工作指南,强化侵权打击与跨平台联合惩处

中国版权协会发布新规,为微短剧版权保护“划重点” 最近,版权领域有个新动向值得关注。中国版权协会正式发布了《关于强化微短剧领域“通知—删除”规则的工作指南》。这份文件的目标很明确:就是要切实维护微短剧作品权利人的合法权益,在权利人、网络服务提供者和用户之间找到一个更好的利益平衡点,从而推动整个微短剧

热心网友
04.30
26年搭档的吻戏被剪:谁在控制观众的期待
娱乐
26年搭档的吻戏被剪:谁在控制观众的期待

一部拍了26年的剧集,一对被观众追了20多年的搭档,一个拍了却没播的吻戏——这背后不是八卦,是内容控制权的一场小型博弈。 被剪掉的镜头:拍了两种版本,播出的是“差点亲上” 最近,62岁的玛莉丝卡·哈吉塔向《好莱坞报道者》透露了一个有趣的细节:她和65岁的克里斯托弗·梅洛尼为《法律与秩序:特殊受害者》

热心网友
04.30
加密货币风投公司Hashed在阿布扎比获得金融服务牌照
web3.0
加密货币风投公司Hashed在阿布扎比获得金融服务牌照

总部位于韩国的加密货币风险投资公司哈希已获得阿联酋金融中心阿布扎比全球市场(ADGM)颁发的金融服务许可证。 对于关注亚洲与中东加密资本流动的观察者来说,这无疑是一个值得关注的新动向。总部位于韩国的知名加密货币风险投资公司Hashed,正式获得了阿联酋核心金融中心——阿布扎比全球市场(ADGM)颁发

热心网友
04.30
吉利银河M7远航家上市:10.98万起,纯电225km+
娱乐
吉利银河M7远航家上市:10.98万起,纯电225km+

吉利银河M7远航家今日正式上市,定位于主流精品插电式混合动力SUV 家庭用户的选择清单里,今天又多了一个实力派选手。吉利银河M7远航家正式登场,瞄准的正是主流精品插混SUV市场。新车一口气推出了四款配置,限时指导价定在了10 98万元到13 78万元这个区间,意图很明确:用丰富的配置梯度,精准覆盖不

热心网友
04.30