游乐游手机版
首页/数据库/文章详情

mysql为什么从库压力比主库还大_排查查询负载与索引缺失

时间:2026-04-29 17:29
从库执行SELECT会卡住复制线程?先别急着怪查询,这四个隐藏配置才是真凶 是的,从库执行SELECT会卡住复制线程。原因包括:并行复制参数设置过高导致协调器瓶颈;从库缺失主库已有索引引发全表扫描;read_only未严格生效致应用误写;relay_log_recovery=OFF引发重启后重复回放

从库执行SELECT会卡住复制线程?先别急着怪查询,这四个隐藏配置才是真凶

是的,从库执行SELECT会卡住复制线程。原因包括:并行复制参数设置过高导致协调器瓶颈;从库缺失主库已有索引引发全表扫描;read_only未严格生效致应用误写;relay_log_recovery=OFF引发重启后重复回放。

mysql为什么从库压力比主库还大_排查查询负载与索引缺失

从库执行 SELECT 也会卡住复制线程?先看是否启用了 sla ve_parallel_workers > 0

很多DBA一看到从库复制延迟,第一反应就是主库写入太猛。但有没有想过,问题可能出在你为提升性能而开启的并行复制上?MySQL 5.7之后,sla ve_parallel_workers 这个参数确实是个利器,可一旦设置不当,比如在只有4核的从库上硬生生设成16,效果就适得其反了。线程是开多了,但协调器(Coordinator)根本忙不过来,结果就是SHOW PROCESSLIST里堆满了Waiting for an event from CoordinatorReading event from the relay log的状态。这哪里是查询慢,分明是内部调度堵车了。

  • 先确认现状:跑一下 SELECT @@sla ve_parallel_workers; 看看当前值。
  • 如何调整:可以临时设置为 SET GLOBAL sla ve_parallel_workers = 4;(一个经验法则是:不要超过CPU核数的80%)。
  • 重要提醒:修改这个变量后,需要先执行 STOP SLA VE,再 START SLA VE,更改才会完全生效。

EXPLAIN 显示 type=ALLrows 极大?说明从库缺失主库已有的索引

主从架构里一个经典的“信息差”陷阱:主库上的写入,可能靠着主键或几个核心唯一索引就能飞快完成。但那些只在从库上跑的查询呢?比如后台的报表分析、大批量数据导出,它们依赖的筛选条件,主库上可能根本用不到。于是,从库就悲剧了——每次查询都变成全表扫描。反映到监控上,就是Handler_read_rnd_next指标飙升,innodb_buffer_pool_reads持续高位,磁盘I/O压力山大。

  • 第一步,打开从库的慢查询日志:确保log_slow_sla ve_statements = ON,把那些拖后腿的查询抓出来。
  • 第二步,深入分析:对抓到的典型慢查询,用 EXPLAIN FORMAT=TREE 仔细看看。重点关注filtered列(如果低于10%,筛选效率极低)和rows列(是否远远大于实际返回的行数)。
  • 第三步,对比校验:分别在主库和从库执行 SHOW CREATE TABLE,仔细比对表结构定义里的KEY部分是否完全一致。这里要特别敲黑板:FULLTEXT(全文索引)和SPATIAL(空间索引)是不会通过复制同步的,必须手动在从库创建。

从库开了 read_only=ON 还被应用写入?查 information_schema.PROCESSLIST 里的 UserHost

有时候,从库压力大的根源,是它“被迫”干起了主库的活儿。你以为设置了read_only=ON就高枕无忧了?如果应用连接用的是root账号,或者拥有SUPER权限的账号,它们完全可以绕过这个只读限制。还有一种更隐蔽的情况:某些ORM框架或中间件,可能会偷偷执行SET SESSION sql_log_bin = 0关闭binlog记录,然后就直接往从库写数据。

  • 快速排查:执行这条查询 SELECT * FROM information_schema.PROCESSLIST WHERE COMMAND != 'Sleep' AND USER NOT IN ('system user', 'replication');
  • 关注重点:仔细查看结果里的INFO字段,是否包含INSERTUPDATEDELETE等写操作命令,同时确认USER是不是来自运维或开发环境的账号。
  • 强力锁死:如果想彻底杜绝非复制写入,可以双管齐下:SET GLOBAL read_only = ON; 加上 SET GLOBAL super_read_only = ON;。后者专门用来防止拥有SUPER权限的用户绕过只读限制。

从库 relay_log_recovery=OFF 导致重启后重放大量旧 relay log?

这个场景颇具迷惑性:从库经历了一次异常宕机,重启之后,CPU和I/O利用率突然飙升,看起来像是查询负载暴涨。但实际原因,可能是复制线程在“炒冷饭”。当relay_log_recovery=OFF(MySQL的默认设置)时,从库重启后会依据relay_log.info文件中记录的位置继续读取relay log进行回放。如果这个文件在宕机时损坏,或者记录的位置已经严重滞后,就会导致大量已经处理过的历史事务被重复应用,瞬间引发回放风暴。

  • 检查配置:SELECT @@relay_log_recovery;,生产环境建议将其设置为ON
  • 启用方法:这个参数无法动态修改。需要先停止数据库,然后在my.cnf配置文件中添加relay_log_recovery=ON,最后重启实例。
  • 机制解读:启用后,MySQL在启动时会自动丢弃任何可能损坏的relay log,然后根据master_log_pos记录的位置,重新从主库拉取binlog事件。这种方式更安全,虽然首次启动时同步会稍慢一些,但杜绝了数据混乱的风险。

说到底,从库的性能问题往往是一系列因素叠加的结果。真正棘手的,可能不是没建索引,而是索引建得不对路,覆盖不了WHEREORDER BYLIMIT的组合查询;也可能是tmp_table_size设置过小,导致复杂的排序、分组操作频繁使用磁盘临时表。排查时,别只盯着慢查询日志,结合SHOW PROFILEperformance_schema进行深度剖析,才能看到问题的全貌。

来源:https://www.php.cn/faq/2319945.html
上一篇如何利用SQL中的NATURAL_JOIN简化代码_注意字段名冲突带来的风险 下一篇mysql如何监控死锁问题_通过SHOW ENGINE INNODB STATUS分析
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
MyBatis Hive多表关联实现方法
数据库 · 2026-07-01

MyBatis Hive多表关联实现方法

MyBatis处理Hive多表关联查询与普通数据库类似。需准备映射文件,使用association和collection标签定义关联;创建Java实体类包含集合成员变量承接一对多关系;编写Mapper接口声明查询方法;配置MyBatis环境注册映射;最后通过SqlSession调用即可获取关联数据。

提升Hive Metastore查询速度的有效方法
数据库 · 2026-07-01

提升Hive Metastore查询速度的有效方法

HiveMetastore查询优化需从存储优化、缓存机制、查询策略、索引构建、并行能力、配置调优、硬件升级、数据分区及定期维护等多方面协同入手,综合提升系统吞吐量与响应速度,有效降低查询延迟。

Hive Metastore处理大数据的核心机制
数据库 · 2026-07-01

Hive Metastore处理大数据的核心机制

HiveMetastore管理元数据,通过分库分表、读写分离应对海量元数据,调整JVM堆内存并采用G1GC提升稳定性,利用HDFS或云存储及CBO优化器加速查询,在大数据场景下提供高效元数据服务。

Kafka Coordinator 如何监控集群的完整方法与最佳实践指南
数据库 · 2026-07-01

Kafka Coordinator 如何监控集群的完整方法与最佳实践指南

Kafka协调器监控可通过命令行工具、KafkaManager及JMX实时查看消费者滞后、分区状态等性能指标,并利用Prometheus+Grafana实现长期可视化监控与告警,从而确保集群稳定运行。

Hive中row_number()函数性能的实用高效监控方法与优化技巧
数据库 · 2026-07-01

Hive中row_number()函数性能的实用高效监控方法与优化技巧

Hive中row_number()性能受数据量、索引、查询复杂度及数据倾斜影响。优化需通过分区、建索引、查询优化、使用ORC Parquet格式及调整CBO和并行度实现。监控可借助HiveWebUI、YARN界面、日志或第三方工具定位瓶颈,持续迭代改进。