Professional-Cloud-DevOps-Engineer 문제 6
여러 시간 동안 서비스의 모든 사용자에게 영향을 미치는 주요 서비스 중단이 발생했습니다. 몇 시간의 사고 관리 후 서비스가 정상으로 돌아왔고 사용자 액세스가 복원되었습니다. 사이트 안정성 엔지니어링 권장 사례에 따라 관련 이해 관계자에게 사고 요약을 제공해야 합니다. 먼저 무엇을 해야 합니까?
Professional-Cloud-DevOps-Engineer 문제 7
귀하의 제품은 현재 3개의 GCP(Google Cloud Platform) 영역에 배포되어 있으며 사용자는 영역 간에 나누어져 있습니다. 한 영역에서 다른 영역으로 장애 조치할 수 있지만 영향을 받는 사용자에게 10분 서비스 중단이 발생합니다. 일반적으로 분기마다 한 번씩 데이터베이스 오류가 발생하며 5분 이내에 이를 감지할 수 있습니다. 제품에 대한 새로운 실시간 채팅 기능의 안정성 위험을 분류하고 있습니다. 각 위험에 대해 다음 정보를 분류합니다.
* 평균 감지 시간(MUD)(분)
* 평균 수리 시간(MTTR)(분)
* MTBF(평균 고장 간격)(일)
* 사용자 영향 비율
채팅 기능을 사용하려면 영역 간에 성공적으로 장애 조치하는 데 두 배의 시간이 걸리는 새로운 데이터베이스 시스템이 필요합니다. 한 영역에서 새 데이터베이스가 실패할 위험을 고려하려고 합니다. 새 시스템에서 데이터베이스 장애 조치의 위험에 대한 값은 무엇입니까?
* 평균 감지 시간(MUD)(분)
* 평균 수리 시간(MTTR)(분)
* MTBF(평균 고장 간격)(일)
* 사용자 영향 비율
채팅 기능을 사용하려면 영역 간에 성공적으로 장애 조치하는 데 두 배의 시간이 걸리는 새로운 데이터베이스 시스템이 필요합니다. 한 영역에서 새 데이터베이스가 실패할 위험을 고려하려고 합니다. 새 시스템에서 데이터베이스 장애 조치의 위험에 대한 값은 무엇입니까?
Professional-Cloud-DevOps-Engineer 문제 8
개발 팀이 서비스 API의 새 버전을 만들었습니다. 타사 개발자 및 타사 설치 응용 프로그램의 최종 사용자에 대한 중단을 최소화하면서 API의 새 버전을 배포해야 합니다. 당신은 무엇을해야합니까?
Professional-Cloud-DevOps-Engineer 문제 9
일부 프로덕션 서비스가 eu-west-1 지역의 Google Kubernetes Engine(GKE)에서 실행되고 있습니다. 빌드 시스템은 us-west-1 리전에서 실행됩니다. 컨테이너 이미지를 빌드 시스템에서 확장 가능한 레지스트리로 푸시하여 이미지를 클러스터로 전송하기 위한 대역폭을 최대화하려고 합니다. 당신은 무엇을해야합니까?
Professional-Cloud-DevOps-Engineer 문제 10
웹 기반 애플리케이션의 새로운 기능을 프로덕션에 배포할 준비가 되었습니다. Google Kubernetes Engine(GKE)을 사용하여 웹 서버 포드의 절반에 대해 단계적 롤아웃을 수행하려고 합니다.
당신은 무엇을해야합니까?
당신은 무엇을해야합니까?
