비즈니스 가치를 실현하고 운영을 지속적으로 개선하기 위해 시스템을 실행 및 모니터링하는 기능
이 원칙의 주요 주제
- 변경 관리 및 자동화
- 이벤트 응답
- 일일 운영 성공적 관리를 위한 표준 정의
운영 우수성을 달성할 수 있는 설계 원칙 6가지
- 코드로 작업 수행
- 전체 워크로드(앱+인프라)를 모두 코드로 정의하여 인적 오류를 줄이고 일관적인 대응을 가능케 한다.
- 설명서에 주석 추가
- 빌드가 나올 떄마다 주석이 추가된 설명서를 생성하는 작업을 자동화
- 빈번하고 작은 규모로 되돌릴 수 있는 변경 수행
- 업데이트를 항상 원점으로 되돌릴 수 있는 작은 규모로 빈번하게 수행
- 운영 절차를 빈번하게 재정의
- 항상 절차를 개선하고 업데이트할 기회를 모색한다.
- 장애 예측
- 가능한 실패 원인을 분석하여 사전에 제거하거나 완화한다.
- 정기적으로 장애 시나리오를 테스트하고 장애의 영향을 이해하고 있는지 검증한다.
- 모든 운영 이벤트 및 장애로부터 교훈 얻기
- 습득한 내용을 팀과 전체에 공유함으로써 모든이의 발전을 꾀한다.
운영 우수성 관련 질문
보통 위의 3가지 모범 사례 영역과 관련되며 운영 팀은 이를 바탕으로 운영 이벤트에 대응하는 절차를 만들고 사용하며 이러한 절차가 효과적으로 비즈니스 요구사항을 지원하는지 검증한다.