인프라 또는 서비스 장애로부터 복구하고 수요에 맞춰 컴퓨팅 리소스를 동적으로 확보하며 잘못된 구성이나 일시적인 네트워크 문제와 같은 중단을 완화하는 시스템의 기능에 중점을 둔 원칙
주요 주제
- 설정
- 교차 프로젝트 요구 사항
- 복구 계획
- 변경 처리
안정성 설계 원칙 5가지
- 복구 절차 테스트
- 시스템 장애를 테스트하고 복구 절차 검증
- 장애 경로를 파악하여 실제 장애가 발생하기 전 대비가 가능
- 장애로부터 자동 복구
- 시스템의 주요 성능 지표를 모니터링하고 임계값 위반 시 자동 복구를 트리거하도록 시스템 구성
- 자동 알림 및 장애 추적 기능을 활성화하고 장애를 해결하거나 복구하는 자동 복구 프로세스 지원
- 전체 시스템 가용성을 높이도록 수평적으로 확장
- 단일의 대규모 리소스를 다수의 소규모 리소스로 대체하고 요청을 분산하여 단일 지점의 장애가 전체 시스템에 미치는 영향 줄임
- 용량 추정 불필요
- 수요 및 시스템 사용량을 모니터링하고 리소스 추가 또는 제거를 자동화하여 수요를 충족하는 최적의 수준을 유지
- 변경 관리 자동화
안정성 관련 질문
자세한 내용은 백서를 통해 알아보자