Oracle RAC集群启动失败怎么排查？利用crsctl命令解决

时间：2026-04-23 20:31

Oracle RAC集群启动失败怎么排查？利用crsctl命令解决 CRS-4537 错误表明本地节点无法连接 CRS，需先检查 ohasd 进程是否运行；若未运行，确认 etc oracle olr loc 路径正确后执行 crsctl start ohasd，并用 crsctl check c

Oracle RAC集群启动失败怎么排查？利用crsctl命令解决

CRS-4537 错误表明本地节点无法连接 CRS，需先检查 ohasd 进程是否运行；若未运行，确认 /etc/oracle/olr.loc 路径正确后执行 crsctl start ohasd，并用 crsctl check crs 验证。

crsctl check cluster 报 “CRS-4537: Cannot communicate with Cluster Ready Services” 怎么办

遇到这个错误，先别慌。它可不是某个资源启动失败那么简单，而是意味着本地节点和集群就绪服务（CRS）之间的底层通信链路完全断了。这时候，第一步应该做什么？

优先检查 ohasd 这个最底层的进程是否还活着：

ps -ef | grep ohasd

如果命令执行后没有任何输出，那就说明Oracle的高可用自启动框架压根没起来。此时，千万别急着去执行 crsctl start crs，那只会让你在错误的道路上越走越远。

正确的做法是，先确认一个关键文件：/etc/oracle/olr.loc。这个文件必须存在，并且其内容要指向正确的OCR本地副本路径，比如 olrconfig_loc=/u01/app/19c/grid/cdata/olr.ocr。确认无误后，再手动启动这个基础服务：

sudo /u01/app/19c/grid/bin/crsctl start ohasd

启动之后，立刻用 crsctl check crs 来验证一下状态，这一步可千万别跳过。

crsctl start crs 执行后卡住或报 CRS-2672: Attempting to start 'ora.cssd'

CSSD（集群同步服务）是RAC的心跳和成员管理核心，它的启动依赖于OCR和表决磁盘的可访问性。命令卡在这里，通常意味着背后有三个常见的“卡点”：

OCR设备未上线：运行 asmcmd lsdg 查看OCR所在磁盘组的 STATE 是否为 MOUNTED。如果显示为 DISMOUNTED，就需要先用 sqlplus / as sysasm 登录，手动执行 ALTER DISKGROUP OCRVOTE MOUNT; 命令。
表决磁盘路径不可达：执行 crsctl query css votedisk，输出的路径必须能被集群中的所有节点通过完全相同的路径访问（比如都走ASM，或者都走NFS）。同时，要检查这些路径文件的权限是否为 root:oinstall 和644。
网络心跳异常：检查 olsnodes -n 是否能列出所有节点及其编号。如果某个节点缺失，就去查日志 /u01/app/19c/grid/log//cssd/ocssd.log，重点找“IPC Send timeout”这类错误。这大概率是私网不通，或者防火墙拦截了UDP 12345端口。

crsctl stat res -t 显示 ora.asm ONLINE 但状态为 INTERMEDIATE

这个状态很有意思，它表示ASM实例虽然已经启动了，但却无法挂载OCR或表决磁盘对应的磁盘组。问题出在哪？最容易被忽略的，往往是磁盘的权限问题。

RAC启动时，要求所有OCR和表决磁盘在各个节点上，拥有完全一致的主组（oinstall）、属主（grid）和权限（660）。怎么查？用 ls -l /dev/asm* 或 ls -l /dev/mapper/* 仔细检查。这里要特别留意多路径设备，确保它们在不同节点上映射到了同一个WWID。

另外，如果使用了ASMLIB，务必确保 oracleasm listdisks 的输出，与 crsctl query css votedisk 中显示的路径完全一致。否则，CSSD服务就会找不到磁盘。

crsctl stop crs 失败并提示 CRS-2501: Resource ‘ora.cssd’ is not registered

这不是命令本身失效了，而是CRS栈已经出现了严重损坏——CSSD进程崩溃，并且其注册信息从OCR中丢失了。这时候，如果反复执行 crsctl start crs，只会加重OCR的冲突，让情况更糟。

正确的处理流程应该是这样：首先，用 ps -ef | grep d.bin 确认所有 crsd.bin、cssd.bin、evmd.bin 进程都已经彻底退出。然后，清理内存中的残留：

sudo /u01/app/19c/grid/bin/crsctl stop has -f

最后，强制重置OCR的本地缓存：

sudo /u01/app/19c/grid/bin/ocrconfig -local -manualbackup

完成这些操作后，再尝试启动服务。这里有个关键点需要注意：-local 参数仅适用于单节点故障恢复。如果是多节点集群，必须使用 -repair 模式，否则会导致OCR元数据不一致。

说到底，处理RAC启动问题，有一个原则比什么都重要：OCR和表决磁盘的物理可达性，永远比配置文件里的路径字符串更重要。哪怕 crsctl query 命令能正常返回结果，只要底层存储的I/O延迟超过2秒，CSSD就会主动驱逐节点。这种问题通常不会直接报错，只会表现为间歇性的 CRS-2674 或 ORA-15064 错误，排查时需要格外留心。

来源：https://www.php.cn/faq/2310989.html

其他

上一篇如何实现SQL定时任务触发器_通过触发器结合表状态触发 下一篇怎样处理SQL注入后的系统恢复工作_利用二进制日志实现闪回与回滚

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

数据库 · 2026-07-01

MyBatis Hive多表关联实现方法

MyBatis处理Hive多表关联查询与普通数据库类似。需准备映射文件，使用association和collection标签定义关联；创建Java实体类包含集合成员变量承接一对多关系；编写Mapper接口声明查询方法；配置MyBatis环境注册映射；最后通过SqlSession调用即可获取关联数据。

数据库 · 2026-07-01

提升Hive Metastore查询速度的有效方法

HiveMetastore查询优化需从存储优化、缓存机制、查询策略、索引构建、并行能力、配置调优、硬件升级、数据分区及定期维护等多方面协同入手，综合提升系统吞吐量与响应速度，有效降低查询延迟。

数据库 · 2026-07-01

Hive Metastore处理大数据的核心机制

HiveMetastore管理元数据，通过分库分表、读写分离应对海量元数据，调整JVM堆内存并采用G1GC提升稳定性，利用HDFS或云存储及CBO优化器加速查询，在大数据场景下提供高效元数据服务。

数据库 · 2026-07-01

Kafka Coordinator 如何监控集群的完整方法与最佳实践指南

Kafka协调器监控可通过命令行工具、KafkaManager及JMX实时查看消费者滞后、分区状态等性能指标，并利用Prometheus+Grafana实现长期可视化监控与告警，从而确保集群稳定运行。

数据库 · 2026-07-01

Hive中row_number()函数性能的实用高效监控方法与优化技巧

Hive中row_number()性能受数据量、索引、查询复杂度及数据倾斜影响。优化需通过分区、建索引、查询优化、使用ORC Parquet格式及调整CBO和并行度实现。监控可借助HiveWebUI、YARN界面、日志或第三方工具定位瓶颈，持续迭代改进。