반응형
![[ORACLE]ORA-15064 · ORA-03113 오류 분석 및 조치](https://blog.kakaocdn.net/dna/YnRN6/dJMcafZg7Yv/AAAAAAAAAAAAAAAAAAAAAItiP3pmu-C-p03p8OX2friVNHIr6zglymiq0bBCCFit/img.png?credential=yqXZFxpELC7KVnFOS48ylbz2pIh7yKj8&expires=1764514799&allow_ip=&allow_referer=&signature=DgYn1mIi2n2PS7ksN5DC20QVH4g%3D)
ORA-15064 · ORA-03113 오류 분석 및 조치 가이드
Oracle 환경에서 ASM 인스턴스와의 통신 오류(ORA-15064)와 세션 비정상 종료(ORA-03113)가 함께 발생하는 문제는 스토리지 계층·ASM 상태·네트워크·리스너·프로세스 비정상 종료 등이 복합적으로 결합될 때 나타납니다.
두 오류는 단독으로도 치명적이지만, 동시에 발생하는 경우 “ASM 접근 실패 → DB 세션 종료”로 이어지는 전형적 장애 패턴이며 DBA가 반드시 원인별로 분리해 점검해야 합니다.
1️⃣ 오류 메시지
ORA-15064: communication failure with asm instance
ORA-03113: end-of-file on communication channel
상황에 따라 아래와 같은 연계 오류가 함께 나타날 수 있습니다.
ORA-15040: diskgroup is incomplete
ORA-07445 / ORA-00600
ORA-03114: not connected to ORACLE
2️⃣ 주요 원인 분석
1. ASM 인스턴스 비정상 상태
- crsd / cssd / ASM 프로세스 중단
- ASM 디스크 그룹 상태 불일치
- OCR / Voting Disk 접근 문제
2. DiskGroup 접근 실패
- 스토리지 지연(IO hang)
- Multipath 장비 오류
- ASM 디스크 일부 OFFLINE
3. 네트워크 또는 listener와의 통신 끊김
- 리스너 다운
- SCAN listener 비정상
- 서브넷 지연/패킷 드랍
4. DB 프로세스 비정상 종료
- PMON/SMON crash
- 백그라운드 프로세스 장애
- OS 레벨 Killer(OOM 등)에 의한 종료
5. 서버 리소스 부족 / 커널 이벤트
- 메모리 부족(OOM)
- I/O wait 급증
- HugePage / THP 문제
3️⃣ 단계별 점검 가이드
1. ASM 상태 확인
ps -ef | grep asm
srvctl status asm
asmcmd lsdg
DiskGroup이 MOUNT되지 않았거나 UNBALANCED 상태면 ASM 장애 가능성이 큼.
2. 알러트 로그 및 Trace 체크
tail -100f $ORACLE_BASE/diag/rdbms/*/*/trace/alert_*.log
tail -100f /u01/app/oracle/diag/asm/*/*/trace/alert_*.log
중요 패턴:
- ORA-15040 / ORA-15032 / ORA-15066
- ORA-00600 / ORA-07445
- CSSD·CRSD restart 흔적
3. Disk/LUN 확인
multipath -ll
lsblk
dmesg | grep -i error
스토리지 타임아웃(IO hang)이 있으면 ORA-03113와 결합됨.
4. Listener 다시 확인
lsnrctl status
srvctl status listener
SCAN listener 오류는 RAC 환경에서 자주 발생.
5. 리소스 부족(OOM) 여부
dmesg -T | grep -i kill
journalctl -k | grep -i oom
OOM Killer가 AMON/SMON/PMon을 종료시키면 ORA-03113 즉시 발생.
4️⃣ 조치 요약
1. ASM 문제일 경우
- DiskGroup ONLINE 복구
- OFFLINE 디스크 재가입
- ASM 인스턴스 재기동
- CSS/CRS 상태 복구
2. Listener/네트워크 문제일 경우
- 리스너 재기동
- SCAN listener failover 확인
- 서브넷 지연·패킷드랍 점검
3. 서버 리소스 문제일 경우
- THP 비활성화
- HugePage 재설정
- 메모리/CPU 부족 시 튜닝 또는 확장
4. DB 프로세스 장애일 경우
- DB 재기동
- 해당 세션/프로세스 재분석
- 코어덤프 분석
7️⃣ 기본 오류 대응 4단계
① 외부 노출 여부 확인
포트 노출·불필요한 서비스 확인
② 관련 역할 및 기능 비활성화
공격·오류 가능 지점 차단
③ 포트/서비스 차단
문제가 있는 서비스·포트 임시 차단
④ 로그 모니터링 강화
alert log / dmesg / ASM trace 집중 감시
8️⃣ 결론
ORA-15064 + ORA-03113 조합은 “ASM 접근 실패 → 세션 종료”라는 전형적인 중대 장애 패턴입니다.
스토리지·ASM·리스너·네트워크·OS 리소스·프로세스 크래시 등 다양한 원인이 결합될 수 있어 단순 재기동보다는 원인 요소를 하나씩 분리하여 분석하는 것이 핵심입니다.
특히 기업 환경에서는 ASM과 DiskGroup 상태를 정기적으로 점검하고, 리소스 부족(OOM), 네트워크 지연, LUN 비정상 등 사전 징후를 조기에 포착하는 모니터링 체계가 중요합니다.
반응형
LIST
'지식 공유 > DBMS' 카테고리의 다른 글
| [ORACLE] ORA-19511 — RMAN 백업/복구 중 I/O 오류 (2) | 2025.11.12 |
|---|---|
| Oracle Log file sync Event(AP) 느림 현상 — ORA-00312 / ORA-27072 (1) | 2025.11.12 |
| PostgreSQL 오류: cannot merge attstreams with duplicate TIDs (2) | 2025.11.11 |
| DBMS의 종류와 특징 — 관계형부터 객체관계형까지 (1) | 2025.11.10 |
| [Oracle] 아카이브 풀(Archive Full) - ORA-16014, ORA-00257, ORA-19809 (5) | 2025.11.09 |
