Professional-Cloud-DevOps-Engineer 문제 31

사용자 비극이 최소화되는 주말 유지 관리 기간 동안 내부 애플리케이션의 새 릴리스를 배포합니다. 기간이 끝나면 새로운 기능 중 하나가 프로덕션 환경에서 예상대로 작동하지 않는다는 사실을 알게 됩니다. 연장된 중단 후 새 릴리스를 롤백하고 수정 사항을 배포합니다. 릴리스 프로세스를 수정하여 평균 복구 시간을 줄여 향후 중단이 길어지는 것을 방지할 수 있습니다. 어떻게 해야 합니까? (두 가지를 선택하세요.)

Professional-Cloud-DevOps-Engineer 문제 32

많은 수의 종속 시스템이 있는 인프라 서비스에 대한 대기 중입니다. 서비스가 대부분의 요청을 처리하지 못하고 수십만 명의 사용자가 있는 모든 종속 시스템이 영향을 받았다는 경고를 받습니다. SRE(Site Reliability Engineering) 사고 관리 프로토콜의 일부로 자신을 IC(Incident Commander)로 선언하고 팀에서 경험이 풍부한 두 사람을 운영 책임자(OLJ 및 통신 책임자(CL))로 영입합니다. 다음에는 무엇을 해야 할까요?

Professional-Cloud-DevOps-Engineer 문제 33

작업공간 프로젝트 내의 대시보드에서 CPU 사용률에 대한 Stackdriver 차트를 만들었습니다. 사이트 안정성 엔지니어링(SRE) 팀과만 차트를 공유하려고 합니다. 최소 권한 원칙을 따르기를 원합니다. 어떻게 해야 합니까?

Professional-Cloud-DevOps-Engineer 문제 34

여러 시간 동안 서비스의 모든 사용자에게 영향을 미치는 주요 서비스 중단이 발생했습니다. 몇 시간의 사고 관리 후 서비스가 정상으로 돌아왔고 사용자 액세스가 복원되었습니다. 사이트 안정성 엔지니어링 권장 사례에 따라 관련 이해 관계자에게 인시던트 요약을 제공해야 합니다. 먼저 무엇을 해야 합니까?

Professional-Cloud-DevOps-Engineer 문제 35

로드 밸런서를 사용하지 않고 HTTP 엔드포인트를 노출하는 애플리케이션을 관리하고 있습니다. HTTP 응답의 대기 시간은 사용자 경험에 중요합니다. 모든 사용자가 겪고 있는 HTTP 대기 시간을 이해하려고 합니다. Stackdriver Monitoring을 사용합니다. 어떻게 해야 합니까?