Kingbase备份恢复实战七：恢复演练与验收及可交付预案

时间：2026-06-10 07:05

备份恢复演练需明确目标与边界，提供可交付预案。通过标准模板设定RPO RTO、角色分工、恢复流程及验收清单，确保恢复可量化、可复盘。常见失败场景如权限不足、外键依赖、备份损坏等均有处理建议，演练应制度化以形成闭环。

引言备份这项工作，即便日常执行得再频繁，如果缺少“演练与验收”环节，很多时候往往只是自我安慰罢了。当事故真正发生时，如何判断该采用哪种恢复策略？恢复操作具体怎样执行——由谁负责、预计耗时多久？恢复完成后又该如何验证，“恢复成功”的标准必须明确定义。如果恢复失败，应当如何回滚或重新尝试？这些关键点都必须在预案中清晰写明。本文是《备份与复原实战》系列的收官之作，直接提供一套“拿来即用”的模板：包含演练剧本、验收清单、处置流程图以及常见问题排查指南。您可以将它视为演练脚本来使用，或者作为运维交付的架构支撑文档。

一、演练目标与边界（先明确“恢复到何处”）

开展演练时，最怕什么？归根结底，有两件事没有说清楚：目标不明确——到底要恢复到哪个时间点？恢复到哪个数据库？边界也不明确——恢复过程中是否允许覆盖原有库？能否停机？因此，这里直接给出一个标准模板，大家可以直接复制后填写内容：

项目	值（示例）
演练对象	`backup_lab`
演练方式	恢复到新库`backup_lab_drill`
事故类型	误删表（`DROP TABLE backup_demo.t_order`）
恢复策略	归档格式逻辑备份 + `sys_restore`精准恢复
目标指标	RPO ≤ 24h，RTO ≤ 30min（示例）
验收标准	对象齐全、行数一致、关键聚合一致
回滚策略	演练在新库，不影响原库；失败可重做

1.1 角色分工（明确“谁来做”，预案才具可交付性）

角色	主要职责	交付物
DBA/数据库运维	执行恢复、分析日志、给出恢复点建议	恢复操作记录、恢复耗时、问题清单
系统运维	服务启停、目录权限、磁盘空间、任务计划	系统侧日志、磁盘/权限确认
业务方/测试	业务验收、关键报表/接口验证	验收结果、异常描述、签字确认

二、演练流程图

三、案例脚本清单

为了让演练能够重复执行并便于复用，通常建议将“造数据—制造事故—验收”这套流程拆分为以下脚本清单： 1. `01_prepare_env.sql` * 创建演示库、模式及表结构 * 插入演示数据 2. `02_business_increment.sql` * 备份完成后新增的数据（用于验证“精准恢复不会影响其他表”） 3. `03_incident_drop_table.sql` * 模拟事故：`DROP TABLE backup_demo.t_order;` 4. `04_acceptance_check.sql` * 验收用的SQL：查询对象清单、行数以及关键聚合数据 5. `05_cleanup.sql` * 清理演练库`backup_lab_drill`，确保下次可继续使用

四、演练记录表（让RTO/RPO可量化、可复盘）

演练完成后，如果仅凭“感觉说恢复用了20分钟”，这样的结论缺乏说服力。更可靠的做法是在演练过程中同步记录关键节点。

时间点	动作	证据（日志/截图）
T0	确认事故与恢复目标
T1	确认备份文件与可读性	`sys_restore -l`输出
T2	创建演练库（隔离）	SQL执行记录
T3	执行恢复	恢复日志文件
T4	执行验收SQL	查询结果截图/日志
T5	业务验收通过	业务签字/记录
T6	输出演练报告与改进项	报告文档

五、演练剧本（按时间线编写，按步骤执行即可）

5.1 T0：演练前准备（5~10分钟）

1. 首先确认备份文件存在且大小合理： * `D:\KB_LAB\backup\logical\YYYYMMDD_HHMM_backup_lab_full.dump` 2. 接着“列出归档内容”，确认备份集中是否确实包含目标对象： ```cmd cd /d D:\Tools\KingbaseES\Server\bin sys_restore -l D:\KB_LAB\backup\logical\.dump > D:\KB_LAB\logs\.list.txt ``` 3. 准备演练的目标库（创建新数据库实现隔离）： ```cmd cd /d D:\Tools\KingbaseES\Server\bin ksql -U system -d kingbase -h 127.0.0.1 -p 54321 ``` ```sql DROP DATABASE IF EXISTS backup_lab_drill; CREATE DATABASE backup_lab_drill WITH TEMPLATE = template0 ENCODING = 'UTF8'; ``` 4. 将演练的目标指标（RPO/RTO）预先确定并记录在案： * RPO：本次演练允许丢失的数据窗口（例如 ≤ 24h） * RTO：本次演练允许的恢复耗时（例如 ≤ 30min） RPO/RTO并非空洞的口号，它们必须由“备份频率 + 实际恢复耗时 + 验收结果”来支撑。

5.2 T1：恢复到新库（10~30分钟，取决于数据量）

接下来，使用`sys_restore`工具将备份数据恢复到演练库： ```cmd sys_restore -h 127.0.0.1 -p 54321 -U system -d backup_lab_drill D:\KB_LAB\backup\logical\.dump ```

5.3 T2：制造事故（演练专用）

连接演练库，模拟一次“误删表”事故： ```cmd ksql -U system -d backup_lab_drill -h 127.0.0.1 -p 54321 ``` ```sql DROP TABLE backup_demo.t_order; \dt backup_demo.* ```

5.4 T3：执行应急恢复（精准恢复）

从同一份备份集中，仅恢复`t_order`这张表： ```cmd sys_restore -h 127.0.0.1 -p 54321 -U system -d backup_lab_drill -t backup_demo.t_order D:\KB_LAB\backup\logical\.dump ```

5.5 T4：恢复后验收（必须执行）

在ksql中执行以下验收查询（示例）： ```sql \dt backup_demo.* SELECT COUNT(*) AS account_cnt FROM backup_demo.t_account; SELECT COUNT(*) AS order_cnt FROM backup_demo.t_order; SELECT SUM(balance) AS total_balance FROM backup_demo.t_account; ``` 为了让验收更具运维规范性，通常建议将验收拆分为三个层次： * **层1：对象层**——检查schema/table/index等是否完整 * **层2：数据层**——校验行数、关键聚合数据是否一致 * **层3：业务层**——执行关键查询和关键报表，验证功能可用性

5.6 T5：形成“可交付预案”（演练产出不仅是数据库本身）

应包含以下内容： 1. 一份恢复操作记录（含命令、路径、耗时、日志） 2. 一份验收记录（含SQL结果、业务校验、通过标准） 3. 一份改进清单（如自动化、监控、保留策略、权限规范）

六、验收清单

验收项	验收方法	通过标准
备份集可读	`sys_restore -l`	能列出对象清单，无报错
目标库可连接	`ksql -d backup_lab_drill`	连接成功
表对象存在	`\dt backup_demo.*`	目标表存在
行数一致	`COUNT(*)`	行数与预期一致
关键聚合一致	`SUM/COUNT`	聚合结果一致
恢复过程可追溯	日志文件/任务计划记录	有开始/结束时间与结果

七、验收的“高频漏项”

很多时候恢复失败并非因为“表没有恢复”，而是“表虽然回来了，却无法正常使用”。以下是4个常见遗漏点： 1. 索引是否保留——影响查询性能与业务体验 2. 约束或外键是否保留——影响数据一致性 3. 序列是否正确——影响自增主键的正常写入 4. 权限是否正确——影响应用账户的访问对应的最小检查动作（示例）： ```sql \di+ backup_demo.* \d backup_demo.t_order ```

八、常见失败场景与处理建议

**失败1：恢复时报权限不足** 处理建议： * 统一使用管理员用户执行恢复操作（例如`system`） * 或提前在目标库中设置好所需权限和对象所有者 **失败2：只恢复单表后外键/依赖报错** 处理建议： * 优先恢复依赖链上游的对象（如父表、类型、函数） * 或升级为“按schema恢复”，避免仅恢复单表 **失败3：备份存在但不可用（文件损坏/格式不匹配）** 处理建议： * 日常备份完成后，立即执行`sys_restore -l`做快速可读性检查 * 每周至少进行一次恢复演练，防止真正事故时发现备份无效 **失败4：PITR找不到WAL段（归档缺失）** 处理建议： * 将归档目录纳入监控：重点关注容量、文件增长、失败次数 * 明确“归档留存周期”，该周期必须覆盖“从全量备份到目标恢复时间点”之间的时间跨度

九、演练报告模板

* 演练时间：YYYY-MM-DD HH:MM * 演练人员：xxx * 演练对象：backup_lab * 事故类型：误删表 * 恢复策略：逻辑备份+sys_restore精准恢复（或PITR） * RPO/RTO目标：RPO=xx，RTO=xx * 实际恢复耗时：xx分钟 * 验收结果：通过/不通过 * 问题与改进： * 备份耗时仍需优化 * 恢复脚本需固化 * 归档目录需增加监控

十、把演练变成制度

* 每周开展一次小演练：恢复到新库，执行验收SQL（耗时短，收益高） * 每季度开展一次大演练：包含应急沟通、切换、业务验收签字 * 每次演练必须输出改进项，并在下一次演练前关闭——形成闭环管理

总结

写到这一篇，实际上已经将“备份恢复”从单纯的操作层面提升为“可交付的能力”： * 有策略——RPO/RTO目标清晰 * 有流程——可视化的处置路径 * 有演练——恢复到新库，实现隔离验证 * 有验收——可量化的通过标准复盘过程中，也涵盖了自动化与监控相关的内容。至此，《备份与复原实战》系列7篇文章完成了一个大循环。讨论的内容涉及入门级的逻辑备份、精确复原、物理备份、PITR、自动化以及操作演练验证——这几乎是运维场景中最常用、也至关重要的一套能力集合。

来源：https://juejin.cn/post/7648121330443812864

其他