Professional-Data-Engineer 문제 226

BigQuery를 중앙 집중식 분석 플랫폼으로 사용합니다. 매일 새로운 데이터가 로드되고 ETL 파이프라인은 원본 데이터를 수정하여 최종 사용자를 위해 준비합니다. 이 ETL 파이프라인은 정기적으로 수정되어 오류가 발생할 수 있지만 때로는 2주 후에야 오류가 감지되는 경우도 있습니다. 이러한 오류를 복구할 수 있는 방법을 제공해야 하며 백업은 스토리지 비용에 맞게 최적화되어야 합니다. BigQuery에서 데이터를 어떻게 구성하고 백업을 저장해야 하나요?

Professional-Data-Engineer 문제 227

BigQuery 캐싱에 대한 다음 설명 중 참인 것은 무엇인가요?

Professional-Data-Engineer 문제 228

MJTelco에서는 마지막 데이터의 기록 분석을 허용하는 Google Bigtable의 스키마를 생성해야 합니다.
2년의 기록. 들어오는 각 기록은 15분마다 전송되며 장치의 고유 식별자와 데이터 기록을 포함합니다. 가장 일반적인 쿼리는 특정 날짜의 특정 장치에 대한 모든 데이터에 대한 것입니다. 어떤 스키마를 사용해야 합니까?

Professional-Data-Engineer 문제 229

데이터 과학팀이 분석을 위해 BigQuery 내에서 쿼리할 수 있도록 시계열 트랜잭션 데이터를 복사하는 데이터 파이프라인을 만들어야 합니다. 매시간 수천 건의 거래가 새로운 상태로 업데이트됩니다. 초기 데이터 세트의 크기는 1.5PB이며, 하루에 3TB씩 증가합니다. 데이터는 고도로 구조화되어 있으며 데이터 과학 팀은 이 데이터를 기반으로 기계 학습 모델을 구축합니다. 데이터 과학 팀의 성능과 유용성을 극대화하고 싶습니다. 어떤 두 가지 전략을 채택해야 합니까?
답변을 2개 선택하세요.

Professional-Data-Engineer 문제 230

회사의 온프레미스 Apache Hadoop 서버의 수명이 가까워지고 있으며 IT 부서에서는 클러스터를 Google Cloud Dataproc으로 마이그레이션하기로 결정했습니다. 유사한 클러스터 마이그레이션에는 노드당 50TB의 Google 영구 디스크가 필요합니다. CIO는 그만큼의 블록 스토리지를 사용하는 데 드는 비용을 우려하고 있습니다.
마이그레이션에 따른 스토리지 비용을 최소화하려고 합니다. 당신은 무엇을 해야 합니까?