Professional-Data-Engineer 문제 126
다음 중 Compute Engine 계정이 파이프라인 작업을 실행하는 데 필요한 IAM 역할은 무엇인가요?
Professional-Data-Engineer 문제 127
거의 실시간으로 분당 10,000개의 메시지 속도로 Google BigQuery에 소셜 미디어 게시물을 저장하고 분석해야 합니다. 처음에는 개별 게시물에 스트리밍 삽입을 사용하도록 애플리케이션을 디자인합니다.
또한 애플리케이션은 스트리밍 삽입 직후에 데이터 집계를 수행합니다. 스트리밍 삽입 후 쿼리가 강력한 일관성을 나타내지 않고 쿼리 보고서에서 진행 중인 데이터가 누락될 수 있음을 발견했습니다. 애플리케이션 디자인을 어떻게 조정할 수 있습니까?
또한 애플리케이션은 스트리밍 삽입 직후에 데이터 집계를 수행합니다. 스트리밍 삽입 후 쿼리가 강력한 일관성을 나타내지 않고 쿼리 보고서에서 진행 중인 데이터가 누락될 수 있음을 발견했습니다. 애플리케이션 디자인을 어떻게 조정할 수 있습니까?
Professional-Data-Engineer 문제 128
Cloud Datastore를 사용하여 실시간으로 차량 원격 분석 데이터를 수집하기로 결정했습니다. 비용을 낮게 유지하면서 장기적인 데이터 증가를 처리할 스토리지 시스템을 구축하려고 합니다. 또한 특정 시점(PIT) 복구를 수행하거나 다른 환경에서 Cloud Datastore의 데이터 사본을 복제할 수 있도록 데이터의 스냅샷을 주기적으로 생성하려고 합니다. 이러한 스냅샷을 오랫동안 보관하려고 합니다. 이 작업을 수행할 수 있는 두 가지 방법은 무엇입니까? (2개를 선택하세요.)
Professional-Data-Engineer 문제 129
BigQuery에서 처리하는 행 수를 줄이는 데 사용할 수 있는 방법은 무엇인가요?
Professional-Data-Engineer 문제 130
귀하의 회사는 매시간 20,000개의 파일을 생성합니다. 각 데이터 파일은 4KB 미만인 CSV(쉼표로 구분된 값) 파일로 형식이 지정됩니다. 모든 파일은 처리되기 전에 Google Cloud Platform에서 수집되어야 합니다. 회사 사이트의 GCP 지연 시간은 200ms이며 인터넷 연결 대역폭은 50Mbps로 제한됩니다. 현재 데이터 수집 지점으로 Google Compute Engine의 가상 머신에 보안 FTP(SFTP) 서버를 배포하고 있습니다. 로컬 SFTP 클라이언트는 CSV 파일을 있는 그대로 전송하기 위해 전용 시스템에서 실행됩니다. 목표는 전날의 데이터가 포함된 보고서를 매일 오전 10시까지 경영진이 사용할 수 있도록 하는 것입니다. 이 디자인은 대역폭 활용이 다소 낮음에도 불구하고 현재 볼륨을 간신히 따라갈 수 있습니다.
회사에서는 계절성으로 인해 향후 3개월 동안 파일 수가 두 배로 증가할 것으로 예상한다고 들었습니다. 어떤 두 가지 조치를 취해야 합니까? (2개를 선택하세요.)
회사에서는 계절성으로 인해 향후 3개월 동안 파일 수가 두 배로 증가할 것으로 예상한다고 들었습니다. 어떤 두 가지 조치를 취해야 합니까? (2개를 선택하세요.)
