就在备受瞩目的财报公布前夕,英伟达再次展示了其为下一代Vera Rubin算力系统所做的精心准备,详细解读了这套即将带来“十倍算力”飞跃的新硬件究竟有哪些看点。
在近期的一次媒体访问中,英伟达AI基础设施负责人Dion Harris于加州总部向外界完整介绍了Vera Rubin机架的内部构成与供应链细节。他提到,该机架除了核心的72颗Rubin图形处理单元和36颗中央处理器外,总共整合了多达130万个独立组件,这些零部件来自全球超过20个国家和地区的八十余家供应商,其中包括中国、越南、泰国等地。
Harris进一步说明,面对如此庞杂的组件体系,英伟达制定了统一的标准参考设计,再交由全球供应链伙伴协同生产。一个生动的例子是,仅用于连接软管末端的喷咀这一小部件,就有十几家不同的供应商参与制造。
英伟达还展示了其他核心组件的供应商名单。例如,连接器来自安费诺和维谛技术提供的冷却液分配单元;电源托架由Megumi、光宝科技或伟创力供应;电源及功率器件则由英飞凌、亚德诺半导体及意法半导体提供;机箱来自富士康或Interplex,背板由贸联供应,机架液冷歧管由品达负责;液冷冷板则来自技嘉、AVC、Boyd及酷冷至尊;电源线束供应商还包括JPC、Recodeal等。
英伟达透露,新系统的功耗约为前代产品的两倍,但由于每瓦性能相较于Blackwell架构提升了十倍,整体算力的能效比将实现显著跃升。
正是出于功耗的上升,Vera Rubin也成为英伟达首个完全采用100%液冷散热的系统。Harris介绍,公司已向客户建议,未来的人工智能工厂将绝大部分采用液冷架构。得益于液冷闭环的特性,新设计还能有效节约水资源。
(Vera Rubin的液冷结构)
Harris也展示了将数据传输速度提升至每秒260TB的NVLink芯片及机架主干。在单个机架内,就需要约五千根铜缆将所有设备连接在一起,总长度接近两英里。
他还介绍称,Vera Rubin在简化维护、降低成本方面也下足了功夫。例如,更换Blackwell机架计算托盘需要两小时,而新系统仅需五分钟。此外,系统中的低功耗内存在设计和维护便利性上获得优化。
对于当前行业面临的内存供应紧缺问题,Harris并未给出直接回应。他表示,英伟达会向供应商提供非常详细的需求预测,以协调供应链满足出货需求,并称目前“状况良好”。
最后,Harris展示了英伟达下一代大型机架Kyber的原型。新机架搭载的GPU数量将从目前的72块大幅提升至288块,但重量预计仅增加约50%,部分原因是得益于精简的布线设计。英伟达未来的Vera Rubin Ultra系统将采用Kyber机架,预计于2027年上市。
