[Oracle] CRS-1013 오류

반응형

[Oracle] CRS-1013 오류

Oracle CRS-1013 오류 분석 및 복구 가이드

Oracle CRS-1013 오류 분석 및 복구 가이드

🔎 1. 오류 개요

CRS-1013: The OCR service is not online 오류는 Oracle Grid Infrastructure 환경에서 CRS(damon) 또는 OCR 서비스가 정상적으로 기동하지 못한 상태에서 발생한다.

주로 발생하는 상황은 다음과 같다.

  • OCR 디스크 접근 불가
  • Voting Disk 손상 또는 접근 지연
  • CRS daemon hang
  • ASM 디스크 그룹 불안정
  • 노드 간 통신 장애(인터커넥트 문제)
CRS-1013은 **Cluster Ready Service의 핵심 구성요소가 offline** 상태라는 매우 치명적인 경고이며 대부분의 경우 RAC 환경 전체에 영향을 준다.

📌 2. 같이 자주 발생하는 오류 코드

  • CRS-1612: CLS daemon is not responding
  • CRS-4000: Command failed or timed out
  • CRS-4535: CRS is not running
  • CRS-4534: Cannot communicate with CRSD
  • ORA-15055/15081: ASM 디스크 접근 문제
  • ORA-29701: 클러스터 관리자 연결 실패

위 오류가 묶여서 나타나는 경우, 대개 OCR 또는 Voting Disk 상태 이상이 원인이다.

🧪 3. 1차 점검 절차

✔ 3.1 CRS 상태 확인

crsctl check crs
crsctl check cluster -all

✔ 3.2 OCR/Voting Disk 상태 확인

ocrcheck
crsctl query css votedisk

✔ 3.3 ASM 디스크 그룹

asmcmd lsdsk
asmcmd ls -l

✔ 3.4 GRID 로그 확인

tail -50 /u01/app/grid/diag/crs/$(hostname)/crs/trace/crsd.trc
tail -50 /u01/app/grid/diag/asm/+asm/trace/alert+ASM.log

🛠️ 4. 원인별 분석

✔ 4.1 OCR 또는 Voting Disk 손상

CRS-1013의 대표적인 원인. Storage I/O hang 또는 디스크 손상 시 발생.

✔ 4.2 ASM 디스크 그룹 지연 또는 DISMOUNT

ASM이 느리면 CRS도 기동하지 않으며 OCR 접근 자체가 실패한다.

✔ 4.3 인터커넥트 네트워크 장애

클러스터 노드 간 heartbeat 통신 실패 → CRS daemon이 offline 판단

✔ 4.4 CRS daemon hang

CRS 프로세스 자체가 응답하지 않는 경우 로그에 다음 메시지가 보인다:

CRS-1612: CLS daemon is not responding

🔧 5. 복구 절차

✔ 5.1 CRS 강제 재기동

crsctl stop crs -f
crsctl start crs

✔ 5.2 Voting Disk 재구성

crsctl replace votedisk +OCRVOTE

✔ 5.3 OCR 백업 복구

ocrconfig -restore /u01/app/grid/ocrbackup/backup_file

✔ 5.4 ASM 디스크 그룹 재마운트

srvctl stop asm
srvctl start asm

✔ 5.5 인터커넥트 네트워크 점검

ping -I bond0 <상대노드IP>
ifconfig -a
ethtool bond0

📊 6. 오류 분석 흐름도

1) CRS가 offline인가? → 예 → OCR 접근 이상 여부 확인 2) OCR/Voting Disk 정상인가? → 아니오 → OCR 복구/VDISK 재구성 3) ASM 정상인가? → 장애 → ASM 디스크 그룹 점검 4) 인터커넥트 정상인가? → 장애 → NIC/스위치 점검 5) CRS daemon hang? → crsctl 재기동 시도

🛡️ 7. 사후 예방 전략

  • OCR/Voting Disk 복제본 정기 점검
  • ASM 디스크 상태 모니터링
  • 인터커넥트 NIC 본딩(active-backup) 구성
  • 스토리지 I/O 지연 모니터링 강화
  • 정기적인 DR 복구 훈련
  • Grid 패치 적용 (Release Update/RU)
반응형
LIST