OPS

[EKS] 상태검사 실패로 인한 워커노드 재배포시 Pod 생성 에러 발생

찻잔속청개구리 2024. 4. 19. 22:05
반응형
  • 배경 :
    • EC2 상태검사 실패로 인한 워커노드 재배포시 Pod 생성 에러 발생

 

  • 해결방법 :
    1. underlying hardware가 발생하는 경우 다른 hardware로 전환하기 위해 인스턴스가 중지가 필요하므로 수동으로 서버 stop → start
    2. 하나의 EBS에 여러 EKS 노드가 접근하여 detach가 되지 않아 attach도 안 되므로 EBS multi-attach활용. 방법은 io2 볼륨타입을 이용해 동일 가용영역 내 여러 노드에 EBS를 연결함
    3. EFS 활용하여 여러 network interface를 통해 여러 가용영역에서 통신할 수 있도록 함

 

  • 원인 :
    • EC2 상태검사 실패 서버 stop이 ASG에 이루어졌고, 서버 정지 후 EBS가 정상적으로 detaching 되기까지 30분 소요된 것
반응형