[ORACLE]ORA-15064 · ORA-03113 오류 분석 및 조치

반응형

[ORACLE]ORA-15064 · ORA-03113 오류 분석 및 조치

ORA-15064 · ORA-03113 오류 분석 및 조치 가이드

ORA-15064 · ORA-03113 오류 분석 및 조치 가이드

Oracle 환경에서 ASM 인스턴스와의 통신 오류(ORA-15064)세션 비정상 종료(ORA-03113)가 함께 발생하는 문제는 스토리지 계층·ASM 상태·네트워크·리스너·프로세스 비정상 종료 등이 복합적으로 결합될 때 나타납니다.

두 오류는 단독으로도 치명적이지만, 동시에 발생하는 경우 “ASM 접근 실패 → DB 세션 종료”로 이어지는 전형적 장애 패턴이며 DBA가 반드시 원인별로 분리해 점검해야 합니다.

1️⃣ 오류 메시지

ORA-15064: communication failure with asm instance
ORA-03113: end-of-file on communication channel

상황에 따라 아래와 같은 연계 오류가 함께 나타날 수 있습니다.

ORA-15040: diskgroup is incomplete
ORA-07445 / ORA-00600
ORA-03114: not connected to ORACLE

2️⃣ 주요 원인 분석

1. ASM 인스턴스 비정상 상태

  • crsd / cssd / ASM 프로세스 중단
  • ASM 디스크 그룹 상태 불일치
  • OCR / Voting Disk 접근 문제

2. DiskGroup 접근 실패

  • 스토리지 지연(IO hang)
  • Multipath 장비 오류
  • ASM 디스크 일부 OFFLINE

3. 네트워크 또는 listener와의 통신 끊김

  • 리스너 다운
  • SCAN listener 비정상
  • 서브넷 지연/패킷 드랍

4. DB 프로세스 비정상 종료

  • PMON/SMON crash
  • 백그라운드 프로세스 장애
  • OS 레벨 Killer(OOM 등)에 의한 종료

5. 서버 리소스 부족 / 커널 이벤트

  • 메모리 부족(OOM)
  • I/O wait 급증
  • HugePage / THP 문제

3️⃣ 단계별 점검 가이드

1. ASM 상태 확인

ps -ef | grep asm
srvctl status asm
asmcmd lsdg

DiskGroup이 MOUNT되지 않았거나 UNBALANCED 상태면 ASM 장애 가능성이 큼.

2. 알러트 로그 및 Trace 체크

tail -100f $ORACLE_BASE/diag/rdbms/*/*/trace/alert_*.log
tail -100f /u01/app/oracle/diag/asm/*/*/trace/alert_*.log
중요 패턴:
  • ORA-15040 / ORA-15032 / ORA-15066
  • ORA-00600 / ORA-07445
  • CSSD·CRSD restart 흔적

3. Disk/LUN 확인

multipath -ll
lsblk
dmesg | grep -i error
스토리지 타임아웃(IO hang)이 있으면 ORA-03113와 결합됨.

4. Listener 다시 확인

lsnrctl status
srvctl status listener
SCAN listener 오류는 RAC 환경에서 자주 발생.

5. 리소스 부족(OOM) 여부

dmesg -T | grep -i kill
journalctl -k | grep -i oom
OOM Killer가 AMON/SMON/PMon을 종료시키면 ORA-03113 즉시 발생.

4️⃣ 조치 요약

1. ASM 문제일 경우

  • DiskGroup ONLINE 복구
  • OFFLINE 디스크 재가입
  • ASM 인스턴스 재기동
  • CSS/CRS 상태 복구

2. Listener/네트워크 문제일 경우

  • 리스너 재기동
  • SCAN listener failover 확인
  • 서브넷 지연·패킷드랍 점검

3. 서버 리소스 문제일 경우

  • THP 비활성화
  • HugePage 재설정
  • 메모리/CPU 부족 시 튜닝 또는 확장

4. DB 프로세스 장애일 경우

  • DB 재기동
  • 해당 세션/프로세스 재분석
  • 코어덤프 분석

7️⃣ 기본 오류 대응 4단계

① 외부 노출 여부 확인
포트 노출·불필요한 서비스 확인

② 관련 역할 및 기능 비활성화
공격·오류 가능 지점 차단

③ 포트/서비스 차단
문제가 있는 서비스·포트 임시 차단

④ 로그 모니터링 강화
alert log / dmesg / ASM trace 집중 감시

8️⃣ 결론

ORA-15064 + ORA-03113 조합은 “ASM 접근 실패 → 세션 종료”라는 전형적인 중대 장애 패턴입니다.

스토리지·ASM·리스너·네트워크·OS 리소스·프로세스 크래시 등 다양한 원인이 결합될 수 있어 단순 재기동보다는 원인 요소를 하나씩 분리하여 분석하는 것이 핵심입니다.

특히 기업 환경에서는 ASM과 DiskGroup 상태를 정기적으로 점검하고, 리소스 부족(OOM), 네트워크 지연, LUN 비정상 등 사전 징후를 조기에 포착하는 모니터링 체계가 중요합니다.

반응형
LIST