AI芯片良率提升的高带宽内存左移测试策略解析
随着高带宽内存(HBM)堆叠层数持续增加与硅通孔(TSV)间距不断微缩,AI计算模组的最终良率管控正面临前所未有的复杂性。行业共识指向一个明确的策略:将测试环节尽可能向制造前端迁移。然而,测试“左移”战略的背后,是必须直面的额外成本与工程挑战。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

当前,HBM已成为AI加速系统的核心内存解决方案。面对持续爆发的数据洪流,AI对内存带宽与容量的需求似乎永无止境。过去十年间,HBM芯片的堆叠层数已从最初的2层迅猛增长至12层,16层堆叠技术也已进入视野。同时,在先进AI数据中心的多芯片封装中,HBM堆叠的数量也从常见的4个增至8个。
一个关键的趋势是,HBM芯片的成本占比已攀升至整个AI芯片成本的近50%。这意味着,若在最终的系统测试阶段才发现某个内存堆叠存在缺陷,所带来的经济损失将是灾难性的。这正是“已知良好堆叠”(KGS)理念日益受到芯片制造商与系统集成商高度重视的根本原因。然而,芯片堆叠本身是一项极其精密的3D集成工艺:TSV与微凸点的对准精度要求达微米级;晶圆减薄与划片过程引入的机械应力,可能加剧潜在的裂纹、晶格滑移及划痕缺陷;而热压键合工艺则可能引发断路、短路、“枕头效应”及高阻抗连接等一系列可靠性问题。
更大的挑战在于如何有效检测这些潜在缺陷。堆叠芯片测试需要在测试覆盖率、测试时间、机械处理、热管理和供电等多个维度间取得艰难平衡。工程团队固然可以借助可测性设计(DFT)和高并行多站点测试来摊薄成本,但堆叠芯片因物理高度和功耗密度带来的热管理难题尤为棘手。随着HBM4乃至HBM5标准的演进,这些挑战只会进一步加剧。
新思科技(Synopsys)SLM产品管理总监Faisal Goriawalla指出,来自超大规模数据中心的数据分析显示,HBM故障是导致数据中心GPU故障的首要原因。研究也证实,由于其复杂的垂直堆叠结构,HBM比传统2D DRAM更易出现故障,其中与TSV相关的列故障尤为常见。从HBM3升级到HBM4,为支持多芯片互连,2048位宽的内存接口需要穿越堆叠的TSV数量显著增加,这要求外部凸点间距进一步缩小,微凸点总数将大幅上升。此外,支持高达16层的TSV堆叠,为实现更多DRAM芯片的无缺陷连接带来了全新的工程复杂性。
面对现状,出路何在?答案清晰而坚定:必须在制造流程的更早期阶段引入更多测试节点,以便在昂贵封装之前就将缺陷堆叠淘汰。目前,为生产出合格的HBM堆叠芯片,测试流程在晶圆级和堆叠芯片级设置了多个关键插入点:HBM的逻辑芯片(Base Die)和DRAM芯片均需经过严格的晶圆测试;每颗DRAM还需经历晶圆级老化、高低温测试以及冗余修复等多轮考验。随后,经过减薄、植球和划片的DRAM晶粒被堆叠到逻辑基底芯片晶圆上,并再次进行一系列测试。具体的测试节点因封装厂的工艺路线而异——可以在每层DRAM堆叠后立即测试,也可以在堆叠2层或4层后进行阶段性测试,最终完成堆叠晶圆的划片。
理论上,可以对已划片的独立HBM DRAM堆叠进行单独测试,但目前这一更具前瞻性的方案尚未投入大规模量产应用。
泰瑞达(Teradyne)内存事业部产品营销经理Hanh Lai解释道,当前行业标准仍以晶圆级堆叠测试(左侧流程)为主。该方案被认为最具成本效益且风险较低,因为它避免了对已划片的特殊堆叠结构进行探针测试的挑战,尽管在晶圆上进行芯片堆叠同样面临平整度问题。然而,业界对已划片堆叠芯片测试的兴趣正日益增长,探针设备供应商也在积极开发相应的解决方案。其核心驱动力在于,像英伟达(Nvidia)、超威半导体(AMD)这样的系统集成商极度关注最终封装良率——在典型的GPU封装中,一颗GPU周围环绕着八个HBM堆叠,任何一个HBM堆叠存在缺陷,都将导致整颗高端GPU报废,损失极为高昂。
随着单颗缺陷芯片或缺陷堆叠的成本不断攀升,推动测试左移的行业呼声也越来越高。
Aehr Test Systems销售与市场营销执行副总裁Vernon Rodgers认为,归根结底,这是成本与效益的权衡。降低报废率、提升整体良率、减少材料浪费,这些核心目标共同驱动着测试策略的演进。或许在过去,测试左移的成本过高,但如今良率成本曲线正越来越强烈地推动测试向更早阶段迁移。以晶圆级老化测试为例,它能有效筛除与早期失效相关的潜在缺陷。随着堆叠层数增加和封装尺寸增大,早期筛查的价值只会愈加凸显。
FormFactor高级产品营销总监Kevin Tran也持相同观点:随着HBM器件的复杂度和制造成本指数级增长,测试内容正持续向制造流程前端迁移。这种左移策略有助于防止缺陷芯片进入成本高昂的堆叠工序,同时也对晶圆测试阶段的高速测试能力、更大测试并行度以及更精确的热控制提出了更高要求。
晶圆测试与老化
实现“已知良好堆叠”(KGS)的基石,是确保每一颗芯片都是“已知良好芯片”(KGD)。对每颗DRAM及逻辑基底芯片进行全面的晶圆测试,必须覆盖内部电路、核心存储单元以及关键的TSV互连。
DRAM测试需要运行数千种针对其特定内存架构设计的测试图案。由于存储单元密度极高,冗余修复技术在测试过程中扮演着不可或缺的角色——缺乏它,晶圆级良率将大幅下滑。测试图案由自动测试设备(ATE)提供,为降低测试成本,DRAM芯片通常以64至128个站点的高并行度进行测试。
业界专家特别强调了逻辑基底芯片测试的极端重要性,因为它是访问上方堆叠内存芯片的唯一通道,其质量对堆叠芯片的最终良率具有决定性影响。Rodgers指出,设想一个堆叠结构——一颗逻辑基底芯片上方堆叠着8到16颗HBM DRAM芯片。确保基底逻辑芯片具备最高质量至关重要,因为一旦它存在缺陷,其上所有堆叠的DRAM芯片都将一并报废,这对整体良率的影响是巨大的乘数效应。
逻辑基底芯片的测试重点集中在支撑其可测性的DFT电路上,这些电路保障了HBM DRAM在整个堆叠过程及产品全生命周期内的可测试性。测试通过符合JEDEC规范的直接访问接口或IEEE 1500标准,利用有限数量的焊盘或微凸点来实施。在逻辑晶圆测试阶段执行充分的测试内容,可确保内部逻辑、IEEE 1500电路、直接访问总线、内存内建自测(MBiST)引擎、TSV连通性以及高速PHY电路均无缺陷。
然而,随着HBM每一代产品的迭代,晶圆探针测试的挑战也在不断升级。
Tran表示,在先进DRAM工艺节点(尤其是HBM所采用的节点)上,晶圆级测试已超越简单的接触和功能筛选,演变为涵盖机械性能、供电完整性、信号完整性和测试吞吐量等多个维度的综合挑战。应对焊盘几何尺寸持续缩小的问题,需要依赖先进的MEMS探针技术——该技术能够提供更小的间距、更优的精度控制和更长的使用寿命。HBM4和HBM5对数据传输速率与功耗提出了新要求,未来几代产品的数据速率将突破10 Gbps,每个HBM堆叠的功耗也可能高达100瓦。MEMS探针具备更高的电流承载能力,与经过优化的探针卡级供电设计相结合,能够满足KGD测试对高功率、高速度的严苛需求。
典型的DRAM制造流程包含晶圆级老化环节,通过施加电压和温度应力加速激活潜在缺陷,以便后续的标准测试能够有效将其筛除。Rodgers解释说,老化测试主要解决两个问题:第一,筛查具有潜在薄弱环节的器件,例如栅氧化层缺陷;第二,由于DRAM存储单元本质上是电容,需要对其电荷保持特性进行稳定化处理。行业内一直存在技术路线的争论——究竟应该在晶圆级、单颗芯片级还是封装级进行老化?但现在,当我们致力于芯片堆叠制造时,目标是将测试尽量前移,这正是推动晶圆级老化测试兴起的关键驱动力。
晶圆级老化测试的接触方案需要应对探针访问测试焊盘/凸点时的机械挑战,可通过MEMS技术或微弹簧针(micro-pogo pin)来实现,并适用于300mm大尺寸晶圆。
将DFT设计与铝制测试焊盘上的探针测试相结合,有助于进一步降低测试成本。JEDEC标准在规定HBM I/O微凸点布局时,预留了添加牺牲性测试焊盘的空间。Rodgers指出,当设计中使用牺牲焊盘并适当拉开间距时,探针卡的成本会大幅下降,无需花费50万美元购置一张高端探针卡,成本最高可节省80%。DFT不仅保障了测试质量,更重要的是,它为实现低成本的晶圆级老化测试提供了可能——客户可以选择成本更优的微弹簧针方案而非MEMS方案。我们可以在两个截然不同的成本区间提供技术方案,而DFT的部署水平将决定客户实际所处的成本层级。
堆叠芯片测试
对部分堆叠或完全堆叠后的芯片进行测试,能够显著降低AI产品在最终系统测试阶段的良率风险。如前所述,当前主流的制造与测试流程是在晶圆形态下将HBM DRAM堆叠至基底芯片上,然后通过测试接口从晶圆背面进行探针测试,高并行度的多站点测试已成为行业标配。但芯片堆叠工艺在热管理、供电以及机械处理方面带来了严峻挑战,而随着测试插入次数的增加,控制总体测试成本也愈发困难。对于12层堆叠芯片而言,测试插入次数因封装厂的质量标准不同,可从3次到12次不等。
Tran指出,DRAM芯片堆叠过程可能引入新的缺陷模式,包括堆叠内部高速数据传输相关的信号完整性问题、更高堆叠对更大功率和电流的需求,以及由此带来的严峻散热挑战。通过对堆叠芯片进行中间测试和分选,可以在早期剔除缺陷芯片,从而有效降低后续工序的整体测试成本。堆叠芯片测试要求探针对准精度达到个位数微米级别,而HBM5要求最高16层堆叠,这使得对准精度的要求愈发严苛,必须充分考虑TSV和键合工艺的容差。
也有行业专家强调了在封装过程中进行中间测试的极端重要性。
安靠(Amkor Technology)全球测试服务副总裁Omer Dossani表示,随着HBM成本持续攀升,封装过程中的中间测试变得越来越关键。为此,业界正在开发新型的接触机制,以实现在中间制造阶段的可靠测试。许多工程挑战在我们工厂进入大批量生产(HVM)阶段之前便已得到解决,但它们仍是重要的制造考量因素,需要在测试过程中对温度稳定性实施越来越严格的管控,并使用专用测试插座、专用清洁材料,以及在整个制造链中加强数据监控与追溯。
在测试方案的选择上,供电和热管理始终是核心考量,且随着堆叠高度增加,复杂程度呈指数级上升。Rodgers用了一个生动的比喻:如果你看一栋16层的建筑,阳光照射外墙,中心部分几乎感受不到直接热量。而堆叠芯片恰恰相反——外层芯片表面可以相对容易地散热,但中心层芯片产生的热量如何有效导出?在堆叠芯片进行老化或测试过程中,如何管理中间芯片层的温度是至关重要的工程难题。
Teradyne的Lai也指出了这一问题:核心难点在于如何管理这些高功耗器件在测试中产生的热量。探针设备公司需要为HBM堆叠提供有效的主动散热方案。目前,我们的测试机可根据器件引脚数和功率需求,支持最高128个器件的并行测试。从HBM3到HBM4,每个堆叠的功耗增幅预计超过两倍,这对探针设备和探针卡公司都提出了严峻的散热设计挑战。
在2.5D/3D集成封装之前对已划片的独立堆叠芯片进行测试,是一种颇具吸引力的深度左移测试方案,它同时支持主动热控制(相对于全晶圆测试通常采用的被动热控制),能够在测试过程中实现更精确的温度管理。然而,针对已划片堆叠芯片的测试方案涉及多项昂贵技术——专用的堆叠芯片载板、精密的上下料设备、堆叠芯片处理机以及复杂的主动热控制系统,均成本不菲,且都需要进一步开发并验证其在大规模量产(HVM)环境下的成熟度与经济效益。
目前对堆叠芯片进行测试的主流方案,是在划片前从逻辑基底芯片背面的铝制焊盘进行探针测试,这些焊盘位于微凸点布局中预留的专用“测试街区”内。因此,ATE需要同时具备强大的逻辑测试和内存测试能力,在多达128个测试站点并行测试时,其供电需求极为可观。
将DRAM堆叠至基底芯片后,可利用逻辑基底芯片内置的可编程MBiST引擎或直接访问总线对核心存储单元进行测试,并在每次测试插入时对有缺陷的TSV实施修复。
Goriawalla表示,SoC设计者必须能够部署一套灵活的BiST引擎,支持在不同应用场景(如制造测试、上电自测(POST)、系统内调试与诊断)下切换不同测试算法,以实现高覆盖率与合理测试时间之间的最佳平衡。该引擎必须高度可编程,以适应不同DRAM厂商在延迟、地址范围及测试操作时序上的差异,还可能需要支持针对HBM DRAM的封装后修复(PPR)能力,以推迟或减少现场服务的需求。BiST引擎所执行的诊断必须精确到位,能够在检测到DRAM堆叠存在缺陷时,准确报告发生故障的Bank、行地址、列地址等详细信息。
结语
尽管HBM DRAM厂商目前在市场上享有一定的技术溢价能力,但其核心关注点依然是持续降低成本。Teradyne的Lai指出,内存厂商的思维模式是,测试方案必须经过高度优化且尽可能降低成本——这一点比那些产品生命周期极短、迭代快速的消费级SoC厂商更为突出。HBM厂商在这个资本密集、竞争激烈的市场中深耕多年,历来利润空间相对有限。
尽管如此,由缺陷报废带来的巨大经济压力,正在不可逆转地推动HBM堆叠芯片制造商在流程更早阶段开展更多测试,这不可避免地增加了单颗芯片的测试成本。但这一新增成本或许能通过在基底芯片上部署灵活的MBiST来部分抵消,后者允许设计者对测试内容、覆盖率和时间进行灵活权衡。然而,以高并行度对堆叠芯片进行测试,对ATE的供电能力和散热方案提出了更高要求。此外,对已划片堆叠芯片进行测试的前沿方案仍有待量产验证,其最终的经济影响与投资回报尚存不确定性。
Q&A
Q1:为什么HBM测试需要向制造流程的更早阶段迁移?
随着HBM芯片堆叠层数不断增加(最高可达16层),单个坏芯片或坏堆叠导致的损失成本急剧攀升。HBM成本已接近AI芯片总成本的一半,如果存在缺陷的堆叠直到最终系统测试阶段才被发现,损失将极为高昂。通过在制造流程更早阶段(如晶圆级测试、晶圆级老化测试)筛查出缺陷,可以避免缺陷芯片进入昂贵的后续堆叠与封装工序,从而有效降低整体报废损失,显著提升整体良率与经济效益。
Q2:HBM堆叠芯片测试在热管理方面面临哪些挑战?
堆叠芯片的散热问题与普通2D芯片完全不同。外层芯片可以通过表面进行一定程度的散热,但中间层芯片产生的热量难以有效导出,容易形成热积聚。随着HBM从HBM3升级到HBM4,每个堆叠的功耗预计增加超过两倍,未来几代产品每个堆叠的功耗甚至可能高达100瓦。这对探针设备和探针卡公司提出了严峻的散热设计挑战,需要通过主动热控制、优化探针卡材料与结构等手段,确保测试过程中堆叠内各层芯片的温度均处于可控且均匀的范围内。
Q3:DFT(可测性设计)在降低HBM测试成本方面具体能发挥哪些作用?
DFT在降低HBM测试成本方面发挥着多重关键作用。一方面,通过在HBM I/O微凸点布局中预留牺牲测试焊盘,可将高端探针卡的采购成本降低高达80%,无需购置价格高达50万美元的复杂探针卡;另一方面,集成在逻辑基底芯片上的可编程MBiST引擎,支持在制造测试、上电自测和系统内调试等不同场景下灵活切换测试算法,从而在测试覆盖率和测试时间之间实现最优平衡。此外,良好的DFT设计还能支持更经济的测试接口方案(如微弹簧针),从多方面有效控制总体测试成本。
相关攻略
全球领先的出行服务平台Uber近期宣布了一项关键的战略合作升级——深化与亚马逊云科技(AWS)的伙伴关系,计划将包括实时派单算法、动态运力预测在内的更多核心网约车业务系统,迁移至亚马逊基于自研AI芯片构建的算力集群上运行。这并非一次简单的服务扩容,而是被行业观察家视为一次具有风向标意义的“核心供应商
AI芯片公司Cerebras的首次公开募股(IPO)获得市场热烈追捧,超额认购倍数超过20倍,有望成为2026年以来全球最大IPO。为此,公司计划扩大发行规模,并将每股发行价区间大幅上调近三成,至150-160美元,预计最多可筹资48亿美元。Cerebras以其独特的“晶圆级芯片”技术闻名,该技术集
人工智能浪潮推高了HBM等高端内存需求,SK海力士成为焦点。尽管面临客户主动投资扩产甚至提供设备的强烈意愿,公司内部却持谨慎态度,核心原因在于当前产能已极度紧张。内部人士直言“可用产能基本为零”,担心接受特定投资会导致产能被锁定和利润受压。为长远计,SK海力士已启动超级工厂建设计划,但该产能预计20
紫光展锐近日发布了新一代端边AI芯片平台N9系列,该平台采用4nm工艺和Armv9 2架构,以“归一+灵活”为设计理念。其高集成度设计可帮助客户显著降低39%的BOM成本并缩短67%的开发周期。平台支持自研的AI音频与智能体技术,并集成了面向小内存的优化引擎。同时,紫光展锐还发布了Agentic
马斯克宣布解散其创立的大模型公司xAI,将其整合进SpaceX。同时,SpaceX将超算集群“Colossus1”转租给Anthropic,显著提升了后者的算力。此外,马斯克计划投资建造世界最大的AI芯片工厂,以满足其旗下企业对计算能力的巨大需求,并减少对外部芯片制造的依赖。
热门专题
热门推荐
当RPA机器人面临复杂决策场景时,企业通常可以采取以下几种经过验证的有效策略来应对,确保自动化流程的顺畅与准确。 借助人工智能技术 一种广泛应用的解决方案是将RPA与人工智能技术深度融合,特别是机器学习与自然语言处理。通过集成AI的预测分析与模式识别能力,RPA能够处理非结构化数据并应对模糊的业务情
当智能制造与人工智能技术深度融合,这不仅是两种前沿科技的简单叠加,更是一场旨在重塑全球制造业竞争格局的系统性变革。其核心目标在于,通过深度嵌入人工智能等前沿技术,全面提升制造业的智能化水平、生产效率与国际竞争力。那么,如何有效推进这场深度融合?以下六大关键策略构成了清晰的行动路线图。 1 加强关键
对于已经部署了RPA的企业而言,项目上线远不是终点。要让自动化投资持续产生价值,对机器人性能进行持续优化是关键。这就像保养一台精密的机器,定期维护和调校,才能确保其长期高效、稳定地运行。 那么,具体可以从哪些方面着手呢?以下是一些经过验证的优化方向。 一、并行处理与任务分解 首先,看看任务执行本身。
面对海量数据源的高效抓取需求,分布式数据采集架构已成为业界公认的核心解决方案。该架构通过精巧的设计,协调多个采集节点并行工作,并将数据汇聚至中央处理单元,最终实现数据的集中分析与深度洞察。这套系统看似复杂,但其核心原理可拆解为几个关键组件的协同运作。 一、系统核心组成 一套典型的分布式数据采集系统,
Gate io平台活动页面多样,新手易混淆注册奖励、邀请与正常开户页。本文梳理三者核心区别:注册奖励页通常含专属链接与限时福利;邀请页强调社交分享与返利机制;正常开户页则提供基础功能与安全验证。清晰辨识有助于用户高效参与活动,避免错过权益或操作失误,提升在Web3领域的入门体验。





