OPS

[EC2] 연결성 오류 검사 에러

찻잔속청개구리 2023. 1. 9. 13:36
반응형

SRE 업무의 꽃 모니터링 중 발생한 연결성 오류 검사 에러 건에 대해

트러블슈팅 및 가능한 조치 방법에 대해 소개하고자 한다.

 

  • 상황
    • 연결성 오류 검사 에러가 발생
  •  트러블슈팅
    1. free명령어로 확인 → available 쪽에 많이 할당되어서 메모리 낮다고 보기 어려웠음
    2. top 봐도 당장 메모리 많이 잡고 있는 ps 없음
    3. /var/log/message 로그에서 에러 뜬 시간대에 어떤 동작했는지 보기
    4. 동작 내용 대강 확인했으면 검색해서 오류 발생한 시기와 인스턴스 에러 시기 비슷한지 확인
      - 이번 경우 OOM 오류로 확인해서 OOM 발생시기 = 연결 오류 검사 시기 확인함
  • 가능 조치 방법 
    • 볼륨 최대 처리량 변경
      • 현재 볼륨 최대 처리량은 125MiB/s
      • 알림이 발생한 시간대에 처리량(CW상 읽기 처리량)이 최대치인 125MiB/s를 초과하였기 때문에 해당 값을 높이게 되면 이 부분이 완화
    • 인스턴스 타입 변경 - 메모리 증설을 위해

 

 

반응형