11月6日消息,当今的AI芯片性能愈发强大,对电力的渴求也更加强烈。微软CEO纳德拉曾直言,现有电力供应已难以跟上发展步伐,NVIDIA的高功耗可谓一大挑战。
摩根士丹利最新报告显示,在NVIDIA Blackwell Ultra GB300 NVL72机架式AI服务器系统中,仅液冷散热组件的价值就高达49860美元,约合人民币近36万元,这已比现有的GB200 NVL72系统贵了约20%。
这还没完。
下一代系统的功耗将进一步攀升,因此预计Vera Rubin NVL144服务器的液冷系统成本将再次增加17%,达到55170美元,约合人民币近40万元。

根据这份报告,GB300 NVL72服务器包含18个计算托盘,每颗GPU芯片功耗1400W,每个计算托盘的功耗至少6600W,为此需要6200W的散热能力,单个液冷成本约2260美元,18个总计40680美元。
另外还有9个NVSwitch交换机托盘,单个液冷成本约1020美元,9个总计9180美元。
不出意外,整个液冷散热系统中,最昂贵的组件是为GPU、CPU定制的高性能液冷板,每个需要300美元,还有为NVSwitch交换机制定的冷板,每个也要200美元。
摩根士丹利预计,下一代Vera CPU、Rubin GPU的功耗会更高,其中GPU将高达1800W,NVSwitch 6.0交换机也会更加耗电,散热成本自然随之水涨船高。
其中,每个计算托盘的散热成本增加18%,达到2660美元,其中更大容量的冷板成本增至400美元,而托盘总量不变,合计47880美元。
好消息是交换机托盘的散热成本会降低约15%,每个870美元,合计7830美元。

再往后的Rubin Ultra,将改为每个GPU封装内集成4个计算模块、16个HBM4E内存模块,热设计功耗大幅提升至3600W,从而需要新的液冷板,甚至是浸没式液冷。
同时,NVIDIA正在准备新的NVL576机架方案,包含多达144颗GPU,比现在多了一倍,散热成本自然会急剧增加。
当然,这跟我们没啥关系……

