亚马逊AWS Trainium2 AI训练芯片架构_AI热点日报

亚马逊AWS Trainium2 AI训练芯片架构

类型：热点整理2026-05-29

AWS在re:Invent2023正式发布专为大模型人工智能训练打造的全新Trainium2引擎，直接对标英伟达H100。该芯片继承Inferentia和Trainium技术，推测可能由两个Trainium1芯片拼接而成，在计算、存储、网络方面全面增强，其训练性能显著提升，能效比大幅提升，这充分展现了AWS自主研发的长期战略。

在刚刚过去的re:Invent 2023上，AWS甩出了一张新牌——Trainium2 AI训练引擎。这玩意儿一出场，关注度相当高。我们不妨试着从AWS实验室的Gadi Hutt那里扒了扒信息，再结合技术文档，试着把几个关键点拼凑起来，看看Trainium2到底是个什么来头，以及它与之前Inferentia系列之间到底藏着怎样的演进逻辑。

故事还得从2017年说起。那一年，AWS推出了Nitro DPU，之后一路迭代，又相继拿出了Gra viton Arm服务器CPU、Inferentia AI推理翻跟斗。这次Trainium2和Gra viton4一起亮相，信号很明显：AWS正在全面铺开自己的计算引擎版图。虽然详细的技术规格还不算特别透明，但借着与Gadi Hutt的交流，我们至少能把那些模糊的边界往前推一推。

从技术角度看，Trainium2的对手是谁？明眼人都知道，它瞄准的是Nvidia那款火到缺货、贵到离谱的Hopper H100。AWS的CEO Adam Selipsky在re:Invent上自己也说了，AWS已经采购了数百万颗Nvidia A100和H100。这投入不小。但与此同时，AWS又在搞自家的Titan模型，跑在自己研发的Inferentia和Trainium上。说白了，就是在两条腿走路：一边用别人的顶级货，一边养自己的亲儿子。从性价比的角度看，Trainium2要是真能跟H100掰手腕，那这一局就有的看了。

当然，定价从来不是简单的算术题。就像Gra viton系列Arm CPU那样，AWS一边卖着Intel和AMD的机器，一边用自己的Arm实例打价格战。省去中间商这一招，在AI芯片上很可能也会重演。Trainium2让AWS在AI计算引擎竞赛中又多了一张底牌——自主研发、持续迭代，这件事本身就意味着某种长期主义的胜利。

那么，Trainium2的架构到底是怎么长的？这得从它的家族谱系说起。

最早是2018年，Annapurna Labs团队拿出了Inferentia1。它里面有四个NeuronCore内核，每个核里都配了ScalarEngine和VectorEngine——你可以把它理解成Nvidia GPU里的CUDA核心。除此之外，还有专门加速矩阵运算的TensorEngine，对标的就是TensorCore。在FP16/BF16精度下，Inferentia1的单核性能是16 teraflops。

到了2020年，Trainium1登场。它换上了NeuronCore-v2核心，最大的变化是加上了32GB的HBM堆叠高带宽内存。有意思的是，Trainium1的核心数比Inferentia1少了，但每个核内部的标量、矢量、张量引擎数量都翻了倍。更特别的是，它引入了一个叫GPSIMD的通用处理器，可以直接用C和C++来编程——这个能力，放在当时算是一个不小的突破。

Inferentia2呢？它基本上就是Trainium1的一个变种，主要为了适配推理场景。保留了HBM带宽，但可能关掉了一些计算单元。它的NeuronLink-v2互连端口也比Trainium1少，整体架构跟Trainium1很接近，但做了针对性的“瘦身”。

至于Trainium2，从现有信息来看，它很可能是把两个Trainium1芯片通过高速互连拼接在一起的产物——到底是做成单晶片，还是双芯片封装（MCM），现在还没有定论。但在计算、存储、网络这三大块上，它的继承和改进逻辑是非常清晰的：计算单元更强、带宽更高、互连更快。

回顾整个系列，AWS在AI计算引擎上的演进路径其实很有章法：每一代产品都在前一代的基础上做加法，要么加内存、要么提带宽、要么增强计算密度。这种节奏，看着不激进，但步步为营。在AI算力市场越来越卷的今天，Trainium2究竟能打出多大的水花？我们等着看市场反馈就知道了。

来源：https://m.elecfans.com/article/2340779.html

亚马逊

延伸阅读

补充最近整理过的热点入口。

亚马逊AWS Trainium2 AI训练芯片架构

相关热点

延伸阅读