MySQL主从同步配置:避开这四个坑,才算真正搞定高可用

搭建MySQL主从复制,看似是数据库运维的“标准动作”,但真正能让它稳定跑起来,细节才是魔鬼。不少配置看起来通了,一上生产就出问题,根源往往在于几个关键步骤没做到位。下面这几个点,可以说是主从同步的“生命线”,任何一个环节疏忽,都可能让整个高可用架构形同虚设。
主库必须开启 binlog 并设置唯一 server-id
这是所有复制的基础,但也是最容易“想当然”的地方。主从同步的本质,就是让从库“重放”主库的写操作,而binlog就是这份唯一的操作日志。如果主库没开,复制就无从谈起。
配置时,务必确认my.cnf里包含了这几项核心设置:
log-bin = /var/lib/mysql/mysql-bin(这里要注意,指定的路径必须真实存在,并且MySQL进程要有写入权限)server-id = 1(这个数字必须是一个全局唯一的正整数,绝对不能设为0)binlog-format = ROW(现在普遍推荐行模式,它能最大程度避免语句级复制可能带来的从库执行结果不一致问题)
改完配置,重启MySQL服务是必须的。之后,立刻用SHOW VARIABLES LIKE 'log_bin';和SHOW VARIABLES LIKE 'server_id';命令验证一下。常见的两个坑是:改了配置忘了重启,或者在多实例环境里,server-id不小心配重了。
从库执行 CHANGE MASTER TO 时要对准主库的 binlog 位置
从库不是连上主库就能自动开始同步的,你必须明确告诉它:“从主库的哪一份日志文件的哪个位置开始读”。这一步如果对不准,后续全是徒劳。
标准的做法通常是这样一个流程:
- 先在主库上执行
FLUSH TABLES WITH READ LOCK;,短暂锁住所有表,确保获取位置点时数据是静止的。 - 接着执行
SHOW MASTER STATUS;,关键就是记录下输出的File(日志文件名)和Position(位置点)。 - 然后,使用
mysqldump --all-databases --master-data=2这样的命令导出数据并恢复到从库,参数--master-data=2会自动在导出的SQL文件里写入正确的CHANGE MASTER TO语句。 - 当然,你也可以选择手动执行命令来指定:
CHANGE MASTER TO MASTER_LOG_FILE='mysql-bin.000001', MASTER_LOG_POS=154, ...
如果这里的位置信息填错了,从库通常会报类似Could not find first log file name in binary log index file的错误,或者直接导致数据缺失。还有个小细节:MASTER_LOG_POS的值是整数,别手滑给它加上引号。
START SLA VE 后要立刻检查 Seconds_Behind_Master 和 IO/SQL 线程状态
执行START SLA VE;命令,只是按下了启动按钮。复制链路到底健不健康,得看后台线程的实际运行状态。
这时候,马上执行SHOW SLA VE STATUS\G来查看详情。需要重点关注这几个字段:
Sla ve_IO_Running和Sla ve_SQL_Running这两个值必须都是Yes,一个负责从主库拉日志,一个负责在从库执行,缺一不可。Seconds_Behind_Master这个值如果显示为NULL,通常意味着SQL线程没在跑(可能卡在某个事务上了);即使它显示为0,也不代表绝对实时,可能只是刚刚追平。- 如果在错误日志里看到
ERROR 1062(主键冲突)或ERROR 1032(记录找不到),那就要警惕了——这往往说明从库的数据已经和主库发生了偏离。这时候,千万别图省事直接用SET GLOBAL sql_sla ve_skip_counter=1跳过错误,这只会掩盖数据不一致的根本问题。
尤其是在高可用架构下,这类错误必须人工介入,仔细核对主从数据差异。跳过错误只能是临时应急手段,绝非根治之法。
主从延迟大时,不要盲目调大 innodb_flush_log_at_trx_commit
遇到主从延迟,有些朋友的第一反应是去动主库的innodb_flush_log_at_trx_commit参数,试图通过降低主库的写安全等级来“加速”。这其实是个非常危险的思路。
- 如果把它改成
0,意味着事务提交后,日志可能最多延迟1秒才写入磁盘。一旦主库崩溃,极有可能导致binlog和InnoDB存储引擎的数据对不上,其结果就是:从库的同步会失败,甚至拿到错误的数据。 - 改成
2会比0安全一些,但仍有小概率丢失日志。更重要的是,这通常治标不治本,因为主从延迟的根源往往不在这里,而在于从库单线程重放慢、主库有大事务、或者从库磁盘I/O性能差。
那么,真正有效的优化方向是什么?可以考虑这几点:将MySQL升级到5.7或更高版本,开启sla ve_parallel_workers功能,让从库用多线程来并行重放日志;在应用层拆分大事务;使用pt-heartbeat这样的工具来精确监控延迟,并设置阈值触发告警。
一句话总结:在主从架构中,主库的数据安全性和稳定性永远是第一位的。为了追求“看起来快一点”而牺牲主库的可靠性,一旦主库的binlog损坏,整个复制链就会断裂,后期的修复成本远比优化掉的那几毫秒延迟要高得多。
