Oracle RAC集群启动失败怎么排查?利用crsctl命令解决
Oracle RAC集群启动失败怎么排查?利用crsctl命令解决

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
CRS-4537 错误表明本地节点无法连接 CRS,需先检查 ohasd 进程是否运行;若未运行,确认 /etc/oracle/olr.loc 路径正确后执行 crsctl start ohasd,并用 crsctl check crs 验证。
crsctl check cluster 报 “CRS-4537: Cannot communicate with Cluster Ready Services” 怎么办
遇到这个错误,先别慌。它可不是某个资源启动失败那么简单,而是意味着本地节点和集群就绪服务(CRS)之间的底层通信链路完全断了。这时候,第一步应该做什么?
优先检查 ohasd 这个最底层的进程是否还活着:
ps -ef | grep ohasd
如果命令执行后没有任何输出,那就说明Oracle的高可用自启动框架压根没起来。此时,千万别急着去执行 crsctl start crs,那只会让你在错误的道路上越走越远。
正确的做法是,先确认一个关键文件:/etc/oracle/olr.loc。这个文件必须存在,并且其内容要指向正确的OCR本地副本路径,比如 olrconfig_loc=/u01/app/19c/grid/cdata/olr.ocr。确认无误后,再手动启动这个基础服务:
sudo /u01/app/19c/grid/bin/crsctl start ohasd
启动之后,立刻用 crsctl check crs 来验证一下状态,这一步可千万别跳过。
crsctl start crs 执行后卡住或报 CRS-2672: Attempting to start 'ora.cssd'
CSSD(集群同步服务)是RAC的心跳和成员管理核心,它的启动依赖于OCR和表决磁盘的可访问性。命令卡在这里,通常意味着背后有三个常见的“卡点”:
- OCR设备未上线:运行
asmcmd lsdg查看OCR所在磁盘组的STATE是否为MOUNTED。如果显示为DISMOUNTED,就需要先用sqlplus / as sysasm登录,手动执行ALTER DISKGROUP OCRVOTE MOUNT;命令。 - 表决磁盘路径不可达:执行
crsctl query css votedisk,输出的路径必须能被集群中的所有节点通过完全相同的路径访问(比如都走ASM,或者都走NFS)。同时,要检查这些路径文件的权限是否为root:oinstall和644。 - 网络心跳异常:检查
olsnodes -n是否能列出所有节点及其编号。如果某个节点缺失,就去查日志/u01/app/19c/grid/log/,重点找“IPC Send timeout”这类错误。这大概率是私网不通,或者防火墙拦截了UDP 12345端口。/cssd/ocssd.log
crsctl stat res -t 显示 ora.asm ONLINE 但状态为 INTERMEDIATE
这个状态很有意思,它表示ASM实例虽然已经启动了,但却无法挂载OCR或表决磁盘对应的磁盘组。问题出在哪?最容易被忽略的,往往是磁盘的权限问题。
RAC启动时,要求所有OCR和表决磁盘在各个节点上,拥有完全一致的主组(oinstall)、属主(grid)和权限(660)。怎么查?用 ls -l /dev/asm* 或 ls -l /dev/mapper/* 仔细检查。这里要特别留意多路径设备,确保它们在不同节点上映射到了同一个WWID。
另外,如果使用了ASMLIB,务必确保 oracleasm listdisks 的输出,与 crsctl query css votedisk 中显示的路径完全一致。否则,CSSD服务就会找不到磁盘。
crsctl stop crs 失败并提示 CRS-2501: Resource ‘ora.cssd’ is not registered
这不是命令本身失效了,而是CRS栈已经出现了严重损坏——CSSD进程崩溃,并且其注册信息从OCR中丢失了。这时候,如果反复执行 crsctl start crs,只会加重OCR的冲突,让情况更糟。
正确的处理流程应该是这样:首先,用 ps -ef | grep d.bin 确认所有 crsd.bin、cssd.bin、evmd.bin 进程都已经彻底退出。然后,清理内存中的残留:
sudo /u01/app/19c/grid/bin/crsctl stop has -f
最后,强制重置OCR的本地缓存:
sudo /u01/app/19c/grid/bin/ocrconfig -local -manualbackup
完成这些操作后,再尝试启动服务。这里有个关键点需要注意:-local 参数仅适用于单节点故障恢复。如果是多节点集群,必须使用 -repair 模式,否则会导致OCR元数据不一致。
说到底,处理RAC启动问题,有一个原则比什么都重要:OCR和表决磁盘的物理可达性,永远比配置文件里的路径字符串更重要。哪怕 crsctl query 命令能正常返回结果,只要底层存储的I/O延迟超过2秒,CSSD就会主动驱逐节点。这种问题通常不会直接报错,只会表现为间歇性的 CRS-2674 或 ORA-15064 错误,排查时需要格外留心。
相关攻略
SQL嵌套查询中的别名命名规范:提升代码可维护性 子查询里别名必须显式声明,不能依赖字段自动推导 很多开发者容易在这里踩坑:SQL标准压根不支持子查询的字段名自动成为外部引用的名称。如果你不老老实实地用AS或者空格来定义别名,外层的SELECT语句要么直接报错,要么引用到意料之外的列名,导致数据错乱
在异步函数中正确向外部声明的数组添加数据 你是否遇到过这样的情况:明明在函数外声明了一个空数组,准备在异步函数里往里添加数据,结果却报错“push is not a function”?这背后,往往是一个典型的变量作用域与命名冲突问题在作祟。 让我们来拆解一下。代码首先在全局作用域声明了 let d
如何正确获取 Selectric 插件中选中项的文本内容 你是否在使用 jQuery Selectric 插件美化下拉框时,尝试用 $( selected ) text() 获取当前选中文本,却只得到一个空字符串?这并非代码错误,关键在于代码执行的时机不对。 Selectric 是一款强大的下拉框
西餐刀叉的正确用法 吃西餐的时候,刀叉要怎么用呀 在正式的西餐语境里,刀、叉这类餐具统称为“Cutlery”。可别小看它们,里头门道不少:刀叉按用途细分,有专用于肉类、鱼类、前菜和甜点的不同款式;汤匙除了前菜、汤品、咖啡和茶之外,还有专门用来添加调味料的。这种调味料匙,在享用甜点或鱼类料理时尤为常见
个人礼仪之握手礼仪 一个人的修养如何,往往就藏在这些日常交往的细节里。握手,这个看似简单的动作,实则蕴含着丰富的社交密码。掌握它,不仅能避免尴尬,更能为你的人际关系加分不少。 个人礼仪之握手礼仪【一】 一、握手的顺序: 这里有个基本原则:通常由尊者先行。也就是说,主人、长辈、上司或女士主动伸出手后,
热门专题
热门推荐
Linux Exploit攻击:典型漏洞与实战响应深度剖析 Linux系统以其开源特性和广泛部署,在成为数字世界基石的同时,也无可避免地成为了攻击者眼中的高价值目标。对于系统管理员和安全从业者而言,深入理解那些真实发生过的攻击案例,远比空谈理论更有价值。这不仅能帮助我们看清威胁的实质,更是构建有效防
当Linux系统遭遇Exploit漏洞:一份给系统管理员的实战修复指南 Linux系统一旦曝出Exploit漏洞,那感觉就像家里门锁出了问题——修补工作刻不容缓。这不仅是堵上一个安全缺口,更是对整个系统防御体系的一次关键加固。下面这份详尽的修复指南,旨在帮助管理员们高效响应,把风险降到最低。 漏洞修
Linux Exploit揭秘:黑客攻击手段有哪些 Linux系统的开源与灵活,让它成了无数开发者和企业的首选。但硬币的另一面是,这种开放性也让它成了攻击者眼中的“香饽饽”。那么,黑客们究竟有哪些惯用手段来利用Linux系统呢?下面就来梳理几种主流的攻击方式。 1 端口扫描 这通常是攻击的第一步,
特朗普称“不急于结束与伊朗战争”:时间在美方一边 事情有了新进展。4月24日,美国总统特朗普在社交媒体上发布了一条信息量不小的动态。他明确表示,自己“并不急于结束与伊朗的战争”,但话锋一转,指出“伊朗没时间了”。这番表态,立刻将外界关注的焦点,从“是否急于谈判”转向了“时间站在谁一边”的战略博弈上。
在CentOS上,SFTP(SSH File Transfer Protocol)使用SSH协议进行数据加密,确保数据在传输过程中的安全性。SFTP的加密方式主要包括以下几个方面: 简单来说,SFTP的安全性并非单一措施,而是由一套组合拳构成的。下面我们就来拆解一下,看看在CentOS环境下,它具体





