首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
AI数据中心布线需重点考量的几个关键要素

AI数据中心布线需重点考量的几个关键要素

热心网友
95
转载
2026-05-28

人工智能……几十年来一直是科幻小说不变的主题。荧幕上的反派角色,从 HAL 9000、终结者到《黑客帝国》里的机器人,几乎都在跟人类对着干,逼得我们必须想办法应对技术带来的威胁。不过,最近 DALLE-2 和 ChatGPT 的发布,让大众对 AI 的能耐产生了极大兴趣,也引发了一连串关于它怎么改变教育和工作的讨论。当然,AI 也是当下乃至未来数据中心增长的核心推动力。

什么是 AI?简单说,它包含三个层面:训练阶段,大量数据被喂进算法,算法从中“学习”;推理阶段,算法接触新数据,基于训练学到的内容生成新结论——比如判断一张照片是不是猫;还有生成式 AI,这就更有意思了,算法能根据简单提示“创作”出文本、图像、视频、代码等原始输出。

AI 计算靠的是图形处理单元(GPU),这种芯片专为并行处理而生,特别适合 AI。但训练和运行 AI 模型占用的算力惊人,单台机器根本扛不住。

图 1:AI 模型大小(单位:petaFLOPS)

图 1 展示了 AI 模型规模的演进史,单位是 petaFLOPS(每秒千万亿次浮点运算)。处理这些大模型,需要多台服务器和机架上大量互联的 GPU。AI 数据中心通常会部署几十个这样的集群,而把这一切连起来、保证数据流动的布线基础设施,正面临一堆棘手的挑战。

下面就来聊聊 AI 数据中心布线的几个关键挑战与机遇,以及一些实用的最佳实践。

典型数据中心架构

几乎所有现代数据中心——尤其是超大规模的那种——都采用了折叠式 Clos 架构,也叫“分支和骨干”架构。在这里,所有分支交换机都连接到所有骨干交换机。具体来说,服务器机架连接到架顶交换机(ToR),然后 ToR 再通过光缆连到行末端的分支交换机,或者直接连到另一个房间。机架里的服务器,通常用一米到两米长的短铜缆连到 ToR,传输 25G 或 50G 信号。

这种配置能让数据中心用最少的光缆。比如 Meta 的 F16 架构(见图 2),每一行中的每个服务器机架只有 16 根双工光缆。这些光缆从 ToR 延伸到行末端,在那里与模块连接,把双工光纤组合成 24 根光缆,再延伸到另一个房间,连到分支交换机。

当数据中心引入 AI 时,会把 AI 集群部署在传统计算集群旁边。传统计算常被称为“前端网络”,AI 集群则是“后端网络”。

图 2:Facebook F16 数据中心网络拓扑结构

带有 AI 集群的数据中心

AI 集群有独特的数据处理需求,所以数据中心架构也得跟着变。GPU 服务器需要更多互联,但受限于功耗和散热,每个机架能放的服务器反而更少。结果就是,AI 数据中心里的机架间布线比传统数据中心多得多。每台 GPU 服务器都得连到行内或房间内的交换机,这些链路需要在远距离上跑 100G 到 400G 的速率,铜缆根本做不到。此外,每台服务器还得连到交换机网络、存储和带外管理。

举个例子:NVIDIA

看看 AI 领域扛把子 NVIDIA 的架构吧。他们推出的 DGX H100 GPU 服务器,有 4 个 800G 交换机端口(当作 8 个 400GE 来用)、4 个 400GE 存储端口,以及 1GE 和 10GE 管理端口。一个 DGX SuperPOD(图 3)能装 32 台这样的 GPU 服务器,这些服务器连到单行里的 18 台交换机。每行因此拥有 384 个 400GE 光纤链路用于交换网络和存储,还有 64 个铜缆链路用于管理。光纤链路数量大幅飙升。相比之下,前面提到的 F16 架构,在服务器机架数量不变的情况下,才有 128 根双工光缆(8x16)。

AI 集群的链路有多长?

在 NVIDIA 的理想场景里,AI 集群中所有 GPU 服务器都靠得很近。跟高性能计算(HPC)一样,AI/机器学习算法对延迟极其敏感。有人估计,训练大型模型有 30% 的时间耗在网络延迟上,70% 用在计算上。考虑到训练一个大模型成本可能高达 1000 万美元,这网络延迟就是一笔巨款。哪怕只省下 50 纳秒或 10 米光纤的延迟,效果也十分显著。所以,AI 集群里几乎所有的链路都限制在 100 米以内。

但问题来了,不是所有数据中心都能在同行里部署 GPU 服务器机架。这些机架大约需要 40 千瓦才能供电,这比典型服务器机架的功耗高得多。那些按较低功率要求建起来的数据中心,得专门腾出空间来放 GPU 机架。

如何选择收发器?

运营商得仔细琢磨 AI 集群该用哪种光收发器和光缆,才能把成本和功耗降到最低。前面说了,AI 集群里最长的链路也就 100 米。距离短,光学设备的主要开销就集中在收发器上。采用并行光纤的收发器有个天然优势:不需要用光复用器和分解复用器来做波分复用(WDM),这直接降低了成本和功耗。收发器省下来的钱,完全能抵消多芯光纤比双工光缆多出来的那点成本。比如,用带八芯光纤的 400G-DR4 收发器,就比用双工光缆的 400G-FR4 收发器划算得多。

单模和多模光纤都能支持长达 100 米的链路。随着硅光子技术的发展,单模收发器的成本降了不少,越来越接近多模收发器。市场数据显示,对于 400G 及以上的高速收发器,单模的成本还是多模的两倍。虽然多模光纤本身比单模稍贵,但多芯光纤的成本主要取决于 MPO 连接器,所以两者之间的实际差异并不大。

另外,高速多模收发器的功耗比单模少那么一两瓦。一个 AI 集群大约有 768 个收发器(128 个内存链路 + 256 个交换机链路 x 2),用多模光纤就能省下约 1.5 千瓦的功率。跟每台 DGX H100 消耗的 10 千瓦相比,这似乎不起眼,但对 AI 集群来说,任何降低功耗的机会都弥足珍贵。

2022 年,IEEE 短距离光纤工作组完成了 IEEE 802.3db 标准,为新的超短距离(VR)多模收发器确立了规范。这个新标准专门针对 AI 集群这样的行内布线,最大覆盖范围 50 米。这些收发器有望进一步降低 AI 连接的成本和功耗。

收发器与 AOC

很多 AI、ML 和 HPC 集群会使用有源光缆(AOC)来连接 GPU 和交换机。AOC 是两端集成了光发射器和接收器的光缆,通常用于短距离,且大多搭配多模光纤和 VCSEL。高速(>40G)的 AOC 会使用跟连接光收发器一样的 OM3 或 OM4 光纤。AOC 里的收发器不一定跟设备兼容,不兼容就无法工作。AOC 插上设备就能用,但因为安装人员测试的是内置收发器,所以不需要清洁和检查光纤连接器的技能。

不过,AOC 的缺点也很明显:它们缺乏收发器那种灵活性。安装 AOC 很耗时,因为布线时就得连着收发器。带扇出功能的 AOC 装起来尤其费劲。而且,AOC 的故障率是同等收发器的两倍。一旦 AOC 坏了,得通过网络重新安装新的,这会占用宝贵的计算时间。最后,升级网络链路时,还得把出问题的 AOC 拆掉换新的。相比之下,光纤布线属于基础设施,可以跨越多代数据速率,始终稳定运行。

结论

仔细规划 AI 集群的布线,能帮你省下成本、功耗和安装时间。合理的光纤基础设施,能让企业真正从人工智能中获益。

来源:https://m.elecfans.com/article/6375237.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

GetCustomer AI智能客户获取解决方案的应用优势与案例
AI教程
GetCustomer AI智能客户获取解决方案的应用优势与案例

GetCustomer ai 是什么?全面了解这款AI销售自动化工具 在销售与客户支持领域,效率往往决定成败。今天我们要深入解析的 GetCustomer ai,正是精准直击这一痛点的创新解决方案。作为一款由先进人工智能驱动的自动化平台,它的核心使命非常明确:将那些重复性高、耗时长的销售和客服环节实

热心网友
05.29
ChatGPT解锁AI填表之图像识别语音输入自动补全
科技数码
ChatGPT解锁AI填表之图像识别语音输入自动补全

OpenAI为ChatGPT解锁AI填表技能,用户上传表单图片后通过语音或文字说明即可自动识别字段并补全信息,整合图像识别、语音交互与内容生成。但输出为静态图片而非可编辑文档,文件清晰度影响识别准确率,仍需人工后续处理,属于半自动化尝试。

热心网友
05.29
安全生产工作汇报撰写指南与AI范文提示
AI教程
安全生产工作汇报撰写指南与AI范文提示

适用场景:安全生产季度工作总结汇报本季度公司安全生产工作已顺利收官。总体而言,各部门在安全生产管理上取得了显著成效。以下将对三个月来的具体工作、现存不足及后续改进方向进行详细复盘,以便持续优化安全管控体系。参考范文:安全生产季度工作总结汇报转眼间,一个季度的安全生产工作已顺利收官。在过去三个月中,在

热心网友
05.29
意识形态工作汇报高效撰写范文与提示词参考
AI教程
意识形态工作汇报高效撰写范文与提示词参考

适用场景本篇范文专为需要撰写意识形态工作汇报的读者量身定制——无论您是准备年终总结、项目复盘,还是阶段性述职,它都提供了一套简洁且易于复用的汇报框架,帮助您将零散的信息梳理得既有个人特色,又条理分明。范文示例意识形态工作汇报回顾过往,这一年即将画上句号。团队在多个方面攻坚克难,圆满完成了各项任务,同

热心网友
05.29
请提供原始文章标题
AI资讯
请提供原始文章标题

先说几个核心判断:在RAG(检索增强生成)的实际部署中,有一项技术方法效果极为突出,却常被低估——RAR(推理增强检索)。当大模型将“生成”能力推向舞台中央时,许多人低估了“检索”环节的关键作用。特别是在当前大模型能力愈发普及的背景下,检索质量已成为RAG落地过程中的真正核心瓶颈。 从搜索引擎到智能

热心网友
05.29

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

委内瑞拉通胀突破600% 六成民众选择美元与加密资产
web3.0
委内瑞拉通胀突破600% 六成民众选择美元与加密资产

来看一组让人揪心的数字:截至5月28日,超过半数的委内瑞拉民众,选择支持经济“美元化”——他们想要用美元来对抗全球数一数二的恶性通胀。根据AtlasIntel的调研,31%的受访者明确支持美元化,另有26%的人表示强烈支持,加起来支持率高达57%;而明确反对或强烈反对的,合计只有30%。换句话说,在

热心网友
05.29
异环女主角是谁及内容介绍
游戏资讯
异环女主角是谁及内容介绍

游戏开局,玩家第一眼看到的主角是谁?没错,就是零。不过这里有个挺常见的误会——很多人会下意识觉得零是女主角,那是不是还有个男主角?其实不然。进入游戏之后,外观是可以自由选择的,性别、形象都由你定,男女主角本质上都是同一个人。两种造型唯一的区别就是视觉风格,至于基础属性、成长路线、技能体系,完全一致。

热心网友
05.29
ElevenLabs Music v2发布 一曲多变与商业版权全授权
AI资讯
ElevenLabs Music v2发布 一曲多变与商业版权全授权

或许有人觉得,AI音乐生成工具不过是图个新鲜感,与专业音乐制作相距甚远。但5月28日,ElevenLabs推出的Music v2,很可能改变这一印象。这次升级版音乐生成模型,已不再停留在去年那个“新手友好”的初级阶段,而是在工作流、版权合规和落地场景上都做了充分布局。 一、核心进化:创作从“一次性生

热心网友
05.29
iPhone20外观重大调整:四曲屏配圆润边框
业界动态
iPhone20外观重大调整:四曲屏配圆润边框

iPhone20周年纪念款将采用四曲面屏与圆润边框设计,边框仅1 1毫米,但边缘亮度存在失真问题,苹果正与三星、LG合作解决。若无法攻克,可能沿用平面边框。该款预计2027年亮相,属于Pro系列,含双版本,并计划采用屏下前摄与FaceID。

热心网友
05.29
播面让你像听歌一样高效刷面试题
AI教程
播面让你像听歌一样高效刷面试题

对于技术从业者而言,面试备考始终是一个老生常谈却又不断变化的话题。时间碎片化、知识点庞杂、实战表达欠缺,每一项都可能成为关键时刻的瓶颈。有没有一种方法,能让我们把通勤、运动等零散时间充分利用起来,高效地“打磨技能”呢?今天要介绍的「播面」,或许就是一个值得关注的解题新思路。 播面是什么 简单来说,「

热心网友
05.29