在近期的re:Invent全球技术盛会上,亚马逊AWS揭晓了其新一代自研AI芯片Trainium3。这款芯片的性能较前代产品大幅提升4.4倍,并通过架构优化将模型训练成本最高降低了50%,持续深耕“高性价比”的技术路线。
美西时间周三凌晨,全球云计算巨头亚马逊AWS在年度re:Invent大会上宣布,业界期待已久的新一代自研AI芯片Trainium3正式亮相。
根据官方介绍,Trainium3是亚马逊首款采用3纳米制程的AI训练芯片。与前代产品相比,其计算性能最高提升4.4倍,能效比提升4倍,内存带宽也实现了近4倍的跨越式增长,进一步强化了其在AI算力市场的性价比优势。由Trainium3构建的UltraServer系统支持灵活互联,单机可容纳144颗芯片,为单一应用提供多达100万颗Trainium3的算力支持,规模达到上一代产品的10倍。
亚马逊表示,与采用图形处理器(GPU)的系统相比,基于Trainium3的系统在训练和运行AI模型时,最高可节省50%的综合成本。
不过,期待Trainium3与谷歌TPU正面交锋,甚至挑战英伟达市场地位的投资者可能需要调整预期。目前公开资料显示,这款芯片的核心竞争优势仍集中在性价比层面。
亚马逊并未透露新款AI芯片与谷歌、英伟达最新产品的直接性能对比数据,也未公布具体功耗参数。目前已知每颗芯片集成144GB高带宽内存,而谷歌最新Ironwood TPU为192GB,英伟达Blackwell GB300最高可达288GB。
负责Trainium项目的AWS副总裁兼首席架构师Ron Diamant坦言:“我们并不打算取代英伟达的市场地位。”
Diamant进一步强调,这款自研芯片的最大优势归根结底在于性价比。其核心目标是为客户在不同计算负载场景下提供更多元化的选择。
对亚马逊而言,其AI芯片战略面临的最大挑战并非芯片本身,而是缺乏深度优化且易用的软件生态。
除亚马逊自身及其重点投资的AI初创企业Anthropic外,目前市场上鲜有知名企业公开使用Trainium芯片的案例。
值得注意的是,Anthropic曾在10月宣布将采购最多100万块谷歌TPU,随后又在11月与英伟达签署投资入股协议,并承诺进一步采购英伟达芯片算力。不过Anthropic同时强调,亚马逊仍是其“主要的训练合作伙伴和云服务提供商”,预计到年底将使用超过100万颗Trainium2芯片。
专注于施工设备自动化的Bedrock Robotics透露,虽然公司基础设施运行在AWS服务器上,但在为挖掘机构建引导模型时仍选择使用英伟达芯片。公司首席技术官Kevin Peterson解释:“我们需要既高性能又易用的解决方案,这正是英伟达的优势所在。”
亚马逊似乎也意识到了这一短板。在Trainium3的发布公告中,公司特别强调Trainium4已在研发中,最大亮点是“能够与英伟达芯片协同工作”。
据介绍,Trainium4将支持英伟达NVLink Fusion高速芯片互连技术,最终形成兼容GPU与Trainium服务器的经济高效型机架级AI基础设施。
英伟达方面表示,NVLink Fusion的核心是NVLink Fusion chiplet,超大规模云服务商可将该芯片组嵌入定制ASIC设计中,以实现NVLink规模化互联和NVLink交换机的无缝对接。
(NVLink Fusion芯片组通过72个定制ASIC以每个3.6 TB/s的带宽实现全互联,信息来源:英伟达)
