MySQL 8.0 索引跳跃扫描:一个被误解的“优化捷径”

提到MySQL 8.0的索引跳跃扫描(Index Skip Scan),很多人的第一反应是:“终于可以不用管联合索引最左前缀原则了!” 但事实果真如此吗?先泼一盆冷水:它并非一个可以随意开关的“万能钥匙”,而是优化器在特定场景下才会动用的“秘密武器”。盲目依赖它,不仅可能达不到预期效果,反而会掩盖真正的索引设计问题。
什么时候会触发 skip_scan?
优化器决定是否启用跳跃扫描,背后有一套精密的成本核算逻辑,核心在于三个条件的权衡:
- 最左列基数必须极低:这是前提中的前提。通常要求被“跳过”的第一列,不同值的数量要控制在10到20个以内。想想看,像
gender(性别)、status(状态)、is_deleted(删除标记)这类字段,就非常符合条件。 - 后续查询列选择性要高:查询条件中实际用到的第二列、第三列,必须能高效过滤数据。例如,在
(status, city)索引中查询city='Beijing',如果北京的用户只占一小部分,那么跳跃扫描才有价值。 - 执行计划有明确标识:最终,你需要通过
EXPLAIN命令来验证。只有当type显示为range或ref,并且Extra列明确出现Using index for skip scan时,才能确认它真的生效了。
这里有个关键限制:skip_scan目前主要服务于简单的单表查询。对于涉及多表JOIN、GROUP BY聚合或DISTINCT去重的复杂场景,它就无能为力了。
optimizer_switch 开关怎么调?
这个功能默认是开启的,但最好亲手确认一下。执行以下命令:
SHOW VARIABLES LIKE 'optimizer_switch';
在输出结果里,你应该能找到skip_scan=on。如果发现是off,可以在当前会话中临时开启:
SET SESSION optimizer_switch='skip_scan=on';
⚠️ 请注意,通常不建议使用SET GLOBAL进行全局开启。原因在于,跳跃扫描的本质是“枚举首列所有可能值,然后为每一个值执行一次子范围扫描”。试想,如果首列有1000个不同的值,那么这个查询就会被拆分成1000次小扫描。在首列基数不低的场景下,这种操作的代价可能比全表扫描还要高。
为什么 EXPLAIN 看不到 Using index for skip scan?
明明条件好像都符合,为什么执行计划就是不显示呢?以下几个原因最为常见:
- 首列基数过高:这是最常见的“拦路虎”。像
user_id、order_no这种几乎唯一的值放在联合索引首位,优化器会直接放弃跳跃扫描的评估。 - 查询条件“不干净”:查询中使用了
OR、前导模糊匹配LIKE '%xxx'、函数包裹列,或者发生了隐式类型转换,都会破坏索引的有效使用。 - 数据量太小或统计信息过时:当表数据量极小时,优化器可能认为全表扫描更快。此外,如果表的统计信息没有及时更新,优化器的成本估算就会失准,运行
ANALYZE TABLE命令刷新一下往往能解决问题。 - 强制使用了索引:如果在查询中使用了
FORCE INDEX,就等于剥夺了优化器自主选择执行路径的权利,自然也就屏蔽了跳跃扫描的可能性。
所以,判断是否走了跳跃扫描,不能只看key字段用了哪个索引,Extra列里的信息才是最终的“判决书”。
比 skip_scan 更可靠的做法是什么?
说到底,索引跳跃扫描更像是一种“亡羊补牢”的兜底策略,而非数据库设计的黄金法则。追求稳定和极致的性能,下面这些做法往往更靠谱:
- 调整索引列顺序:一劳永逸的方法,就是根据实际的查询频率,重新设计联合索引的列顺序。例如,如果经常按
city查询,那么就把(status, city, create_time)调整为(city, status, create_time)。 - 建立单独索引:如果某个非首列的查询频率极高,且业务对写入性能不敏感,为其单独建立一个索引是最直接的方案。
- 善用隐藏索引:在不确定新索引效果时,可以先用
INVISIBLE属性创建一个隐藏索引进行测试,验证无误后再将其“转正”,这能避免对线上业务造成冲击。 - 考虑分区表:对于低基数列(如地区、状态)结合高频等值查询的场景,使用
LIST分区可能是一个比依赖跳跃扫描更优雅、更可控的解决方案。
最后必须提醒一点:跳跃扫描并没有减少索引维护的成本。那个庞大的联合索引依然存在,每次数据写入或更新时,你仍需为它付出额外的I/O和计算开销。它只是在“读”的时候,偶尔帮你省了点力气而已。在优化之路上,理解原理远比记住技巧更重要。
