如何分析 JVM 的 TLAB 在多核 CPU 竞争下的碎片化损耗与 Refill 策略优化

时间：2026-04-29 14:19

如何分析 JVM 的 TLAB 在多核 CPU 竞争下的碎片化损耗与 Refill 策略优化当TLAB refill失败时，JVM会尝试为线程重新分配新TLAB，但如果Eden空间不足，就会触发Young GC；失败后线程会降级至共享Eden分配，这直接导致了内存不连续、填充对象堆积和碎片化损耗。

如何分析 JVM 的 TLAB 在多核 CPU 竞争下的碎片化损耗与 Refill 策略优化

当TLAB refill失败时，JVM会尝试为线程重新分配新TLAB，但如果Eden空间不足，就会触发Young GC；失败后线程会降级至共享Eden分配，这直接导致了内存不连续、填充对象堆积和碎片化损耗。下面我们来拆解这个过程。

TLAB refill 失败时到底发生了什么

想象一下这个场景：线程的 TLAB 空间快用完了，但剩下的那点空间，连当前要分配的对象都装不下——哪怕就差几个字节。这时候，JVM就会启动 refill 流程：为这个线程申请一块全新的TLAB。但问题在于，这个过程并非原子操作。它需要先锁住Eden区的全局分配指针，通过CAS操作更新，然后才能划出新的缓冲区。

在高并发、多核密集写入的环境下，麻烦就来了。多个线程很可能在同一时刻都需要refill，于是大家就在那个唯一的Eden分配指针上排起了队，形成CAS冲突队列，也就是所谓的“refill拥塞”。那些没抢到机会的线程怎么办？只能被迫走慢路径，退回到共享的Eden区去分配对象。这一退，就引出了后续一连串的问题：局部内存变得不连续，为了填充空隙而产生的 Filler Object（填充对象）开始堆积——这就是我们看到的“碎片化损耗”的根源。

典型现象：在 PrintTLAB 日志里，你会观察到某个线程的 refills 次数突然飙升，同时它的 waste（浪费比例）字段也急剧上涨，比如从平日的0.5%一下子跳到12%。
根本原因：通常不是TLAB本身设置得太小，而是refill的频率和线程的实际分配节奏错配了。举个例子，如果一个线程每秒要分配300KB的对象，但TLAB只设置了128KB，那就意味着它每秒不得不进行2到3次refill，而每次refill都可能浪费几十KB的剩余空间。
关键点：别只看平均分配量。真正要抓的是P95、P99这些高百分位的单次请求对象体积分布。在大促流量里，经常会出现突发的、比如400KB的临时缓冲区分配，这种“大家伙”能让一个原本能撑5秒的TLAB，在不到1秒内就宣告报废。

用 -XX:+PrintTLAB 定位真实浪费源头

-XX:+PrintTLAB 这个参数输出的可不是简单的统计摘要，它是每秒一条的线程级明细数据。所以，必须配合真实的业务流量，让它跑上3到5分钟，才能看出稳定的行为模式。日志里关键字段就三个：refills（本秒内的refill次数）、waste（本秒浪费字节数占本秒总分配字节数的百分比）、fast_alloc（本秒内成功的TLAB分配次数）。如果发现某个线程的 waste > 5% 并且 refills > 1，基本就可以判定它的TLAB要么是太小了，要么是分配不均。

警惕“平均”陷阱：别轻易相信“平均waste 1.2%”这种数字。很可能的情况是，90%的线程浪费率只有0.3%，但剩下10%的线程把平均值拉高到了1.2%。而这10%的线程，往往就是导致GC波动的罪魁祸首。
结合GC日志看：对比 jstat -gc 命令输出的 EC（Eden区容量）和 EU（Eden区已使用量）。如果EU长期在EC的70%到90%之间波动，但PrintTLAB却显示有大量的refill发生，这就说明内存碎片已经开始侵蚀有效的分配空间了。
关注大对象：开启 -XX:+PrintGCDetails 后，多留意日志里是否频繁出现 humongous allocation 这样的字眼。这代表你尝试分配的对象（比如 new byte[1024*1024]）被判定为了大对象，它会绕过TLAB机制，直接冲击Eden区的头部，从而加剧分配竞争。

TLABSize 和 ResizeTLAB 的实际取舍逻辑

直接硬性设置 -XX:TLABSize=512k 这种参数，只在两种情况下比较合理：一是线程的分配速率极其稳定（比如处理固定batch size的IO工作线程），二是大促压测阶段，为了彻底消除resize带来的开销。除此之外的大多数场景，默认开启 -XX:+ResizeTLAB（JDK8及以上版本默认就是true）是更安全的选择——JVM会根据最近几次GC周期内各个线程的实际分配总量，动态地调整下一轮TLAB的初始大小。

自适应生效的前提：必须让JVM经历至少2次Young GC，它才会开始积累线程分配行为的画像。如果压测时间太短，这个机制可能还没起作用。
控制浪费上限：可以加上 -XX:TLABWasteTargetPercent=1 这个参数。JVM会因此收紧refill的触发阈值，宁可多进行一次refill，也不让单次TLAB剩余空间的浪费比例超过1%。
注意最小尺寸：TLAB有个 MinTLABSize（默认是2048字节）。对于一些非常轻量的线程（比如只做心跳检测的），它每秒可能只分配几百字节，但JVM不会把它的TLAB缩小到低于这个最小值，这就会造成一种隐性的浪费。对于这类线程，更好的办法是考虑用线程池将它们隔离出去。

大对象与 TLAB 碎片的隐蔽耦合

所谓“大对象绕过TLAB”，背后的真实逻辑是这样的：只要一个对象的大小超过了当前TLAB剩余空间的一半，JVM就会拒绝把它放进这个TLAB。这意味着，一个刚刚refill出来、还剩400KB空闲的新TLAB，如果遇到一个201KB的对象，就会直接拒收。这个对象会被迫走到共享Eden区去分配。这种“半途拒收”比TLAB完全用尽更伤——因为它留下了199KB的碎片空间无法被后续使用，同时又没有触发refill来回收这块空间，相当于白白占着内存。

监控建议：使用 Async-Profiler 工具的 alloc 模式来采样堆分配的热点。重点关注分配量排名前3的大对象是哪些类、尺寸多大，而不是一上来就盲目调大TLAB。
避免“拆分陷阱”：有人可能会想，把一个大对象拆小。比如把 new byte[1024*1024] 改成10个 new byte[1024*102]。看起来每个都能进TLAB了，但实际上可能引发10次refill和产生10个填充对象，碎片总量反而可能上升。
真正的解法是分级处理：对于那些确定会频繁出现的大缓冲区，可以考虑改用 ByteBuffer.allocateDirect() 或者对象池化技术。对于尺寸不确定的对象，可以尝试调整 -XX:TLABMaxRefillWasteFraction=0.5 这个参数来收紧判断逻辑（但需要验证这是否会过度增加refill频率）。

说到底，TLAB碎片从来都不是一个孤立的问题。它总是和线程的具体行为、对象尺寸的分布规律、以及GC周期的长短紧密咬合在一起。最需要警惕的信号，是 refill 次数保持稳定，但 waste 比例却在持续攀升——这通常意味着你的线程正在以一种缓慢但不可逆的方式，把Eden区切割成越来越细、越来越难以利用的格子。

来源：https://www.php.cn/faq/2387467.html

其他