Professional-Data-Engineer 문제 51

BigQuery에서 테이블을 비정규화하는 데 사용할 수 있는 두 가지 방법은 무엇입니까?

Professional-Data-Engineer 문제 52

귀사는 GCP와 하이브리드 배포를 유지 관리하고 있으며, 익명화된 고객 데이터에 대한 분석이 수행됩니다. a. 데이터는 GCP에서 실행되는 데이터 전송 서버에 병렬 업로드하여 데이터 센터에서 Cloud Storage로 가져옵니다. 경영진은 일일 전송이 너무 오래 걸린다고 알려주고 문제를 해결해 달라고 요청했습니다. 전송 속도를 최대화하고 싶습니다. 어떤 조치를 취해야 합니까?

Professional-Data-Engineer 문제 53

다음 조건을 충족하는 클라우드 기반 과거 데이터 처리 시스템을 설계하고 있습니다.
* 분석되는 데이터는 CSV, Avro, PDF 형식이며 Cloud Dataproc, BigQuery, Compute Engine을 비롯한 다양한 분석 도구를 통해 액세스할 수 있습니다.
* 스트리밍 데이터 파이프라인은 매일 새로운 데이터를 저장합니다.
* 성능은 솔루션의 요소가 아닙니다.
* 솔루션 설계는 가용성을 극대화해야 합니다.
이 솔루션의 경우 데이터 저장소를 어떻게 설계해야 할까요?

Professional-Data-Engineer 문제 54

Cloud Dataproc은 관리형 Apache Hadoop 및 Apache _____ 서비스입니다.

Professional-Data-Engineer 문제 55

온프레미스 클러스터에서 Hadoop 작업을 dataproc 및 GCS로 마이그레이션했습니다. Spark 작업은 여러 셔핑 작업으로 구성된 복잡한 분석 워크로드이며 초기 데이터는 parquet 파일(평균적으로
각각 200-400MB 크기). Dataproc으로 마이그레이션한 후 성능이 약간 저하되므로 최적화하고 싶을 것입니다. 조직이 비용에 매우 민감하다는 점을 명심해야 하므로 이 작업 부하에 대해 선점형(선점형이 아닌 작업자 2명만)에서 Dataproc을 계속 사용하고 싶을 것입니다.
어떻게 해야 할까요?