반응형
![[Oracle] CRS-1013 오류](https://blog.kakaocdn.net/dna/lH44G/dJMcabbx1fk/AAAAAAAAAAAAAAAAAAAAAO2AwFNIlAAzBTC2jjLiufNv5TWZze45ZHHHghvB43B3/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1764514799&allow_ip=&allow_referer=&signature=QrT4qO2NP73%2FuLn2EM23snTNPPM%3D)
Oracle CRS-1013 오류 분석 및 복구 가이드
🔎 1. 오류 개요
CRS-1013: The OCR service is not online 오류는 Oracle Grid Infrastructure 환경에서 CRS(damon) 또는 OCR 서비스가 정상적으로 기동하지 못한 상태에서 발생한다.
주로 발생하는 상황은 다음과 같다.
- OCR 디스크 접근 불가
- Voting Disk 손상 또는 접근 지연
- CRS daemon hang
- ASM 디스크 그룹 불안정
- 노드 간 통신 장애(인터커넥트 문제)
CRS-1013은 **Cluster Ready Service의 핵심 구성요소가 offline** 상태라는 매우 치명적인 경고이며
대부분의 경우 RAC 환경 전체에 영향을 준다.
📌 2. 같이 자주 발생하는 오류 코드
- CRS-1612: CLS daemon is not responding
- CRS-4000: Command failed or timed out
- CRS-4535: CRS is not running
- CRS-4534: Cannot communicate with CRSD
- ORA-15055/15081: ASM 디스크 접근 문제
- ORA-29701: 클러스터 관리자 연결 실패
위 오류가 묶여서 나타나는 경우, 대개 OCR 또는 Voting Disk 상태 이상이 원인이다.
🧪 3. 1차 점검 절차
✔ 3.1 CRS 상태 확인
crsctl check crs
crsctl check cluster -all
✔ 3.2 OCR/Voting Disk 상태 확인
ocrcheck
crsctl query css votedisk
✔ 3.3 ASM 디스크 그룹
asmcmd lsdsk
asmcmd ls -l
✔ 3.4 GRID 로그 확인
tail -50 /u01/app/grid/diag/crs/$(hostname)/crs/trace/crsd.trc
tail -50 /u01/app/grid/diag/asm/+asm/trace/alert+ASM.log
🛠️ 4. 원인별 분석
✔ 4.1 OCR 또는 Voting Disk 손상
CRS-1013의 대표적인 원인. Storage I/O hang 또는 디스크 손상 시 발생.
✔ 4.2 ASM 디스크 그룹 지연 또는 DISMOUNT
ASM이 느리면 CRS도 기동하지 않으며 OCR 접근 자체가 실패한다.
✔ 4.3 인터커넥트 네트워크 장애
클러스터 노드 간 heartbeat 통신 실패 → CRS daemon이 offline 판단
✔ 4.4 CRS daemon hang
CRS 프로세스 자체가 응답하지 않는 경우 로그에 다음 메시지가 보인다:
CRS-1612: CLS daemon is not responding
🔧 5. 복구 절차
✔ 5.1 CRS 강제 재기동
crsctl stop crs -f
crsctl start crs
✔ 5.2 Voting Disk 재구성
crsctl replace votedisk +OCRVOTE
✔ 5.3 OCR 백업 복구
ocrconfig -restore /u01/app/grid/ocrbackup/backup_file
✔ 5.4 ASM 디스크 그룹 재마운트
srvctl stop asm
srvctl start asm
✔ 5.5 인터커넥트 네트워크 점검
ping -I bond0 <상대노드IP>
ifconfig -a
ethtool bond0
📊 6. 오류 분석 흐름도
1) CRS가 offline인가?
→ 예 → OCR 접근 이상 여부 확인
2) OCR/Voting Disk 정상인가?
→ 아니오 → OCR 복구/VDISK 재구성
3) ASM 정상인가?
→ 장애 → ASM 디스크 그룹 점검
4) 인터커넥트 정상인가?
→ 장애 → NIC/스위치 점검
5) CRS daemon hang?
→ crsctl 재기동 시도
🛡️ 7. 사후 예방 전략
- OCR/Voting Disk 복제본 정기 점검
- ASM 디스크 상태 모니터링
- 인터커넥트 NIC 본딩(active-backup) 구성
- 스토리지 I/O 지연 모니터링 강화
- 정기적인 DR 복구 훈련
- Grid 패치 적용 (Release Update/RU)
반응형
LIST
'지식 공유 > DBMS' 카테고리의 다른 글
| [Oracle] SE 기반 TPC-H 벤치마크 — 개념, 활용 상황, 기대효과 (1) | 2025.11.23 |
|---|---|
| [Oracle] ORA-01034, ORA-27101 오류 (0) | 2025.11.23 |
| [ORACLE]ORA-04061, ORA-04065, ORA-06508, ORA-04068 (0) | 2025.11.20 |
| PostgreSQL repmgr 스플릿브레인 복구 (1) | 2025.11.19 |
| [ORACLE] ORA-00257 Archive Error & ORA-15041 RECO Disk Full 장애 (1) | 2025.11.17 |
