반응형
SRE 업무의 꽃 모니터링 중 발생한 연결성 오류 검사 에러 건에 대해
트러블슈팅 및 가능한 조치 방법에 대해 소개하고자 한다.
- 상황
- 연결성 오류 검사 에러가 발생
- 트러블슈팅
- free명령어로 확인 → available 쪽에 많이 할당되어서 메모리 낮다고 보기 어려웠음
- top 봐도 당장 메모리 많이 잡고 있는 ps 없음
- /var/log/message 로그에서 에러 뜬 시간대에 어떤 동작했는지 보기
- 동작 내용 대강 확인했으면 검색해서 오류 발생한 시기와 인스턴스 에러 시기 비슷한지 확인
- 이번 경우 OOM 오류로 확인해서 OOM 발생시기 = 연결 오류 검사 시기 확인함
- 가능 조치 방법
- 볼륨 최대 처리량 변경
- 현재 볼륨 최대 처리량은 125MiB/s
- 알림이 발생한 시간대에 처리량(CW상 읽기 처리량)이 최대치인 125MiB/s를 초과하였기 때문에 해당 값을 높이게 되면 이 부분이 완화
- 인스턴스 타입 변경 - 메모리 증설을 위해
- 볼륨 최대 처리량 변경
반응형
'OPS' 카테고리의 다른 글
[AWS] ELB를 활성화했음에도 트래픽이 분산되지 않는다면? (0) | 2023.02.07 |
---|---|
[AWS] EBS 볼륨 유형을 gp2에서 gp3로 변경해야 하는 이유! (0) | 2023.02.06 |
[EFS] EFS 마운트 (0) | 2023.01.04 |
[NLB] NLB 타겟그룹으로 ALB 매핑시 발생한 이슈, 트러블슈팅 (0) | 2023.01.02 |
[ACM] DNS 검증시 "검증 대기 중"이 계속될 때 (0) | 2022.12.30 |