Professional-Data-Engineer 문제 71

전 세계 창고에서 온도 데이터를 수집하기 위해 10,000개의 새로운 사물 인터넷 장치를 배포하고 있습니다. 이러한 대규모 데이터 세트를 실시간으로 처리, 저장 및 분석해야 합니다.
어떻게 해야 합니까?

Professional-Data-Engineer 문제 72

타임스탬프 및 ID 열에서 WHERE 절을 사용하여 BigQuery 테이블을 필터링하는 쿼리가 있습니다. bq query -dry_run을 사용하면 타임스탬프 및 ID에 대한 필터가 전체 데이터의 아주 작은 부분을 선택하더라도 쿼리가 테이블의 전체 스캔을 트리거한다는 것을 알 수 있습니다. 기존 SQL 쿼리를 최소한으로 변경하여 BigQuery에서 스캔하는 데이터의 양을 줄이려고 합니다. 어떻게 해야 합니까?

Professional-Data-Engineer 문제 73

페타바이트의 분석 데이터가 있고 이를 위한 스토리지 및 처리 플랫폼을 설계해야 합니다. Google Cloud의 데이터에 대해 데이터 웨어하우스 스타일 분석을 수행하고 데이터 세트를 다른 클라우드 제공업체의 일괄 분석 도구용 파일로 노출할 수 있어야 합니다. 어떻게 해야 합니까?

Professional-Data-Engineer 문제 74

거의 실시간으로 분당 10,000개의 메시지 속도로 Google BigQuery에 소셜 미디어 게시물을 저장하고 분석해야 합니다. 처음에는 개별 게시에 스트리밍 삽입을 사용하도록 응용 프로그램을 설계합니다.
또한 애플리케이션은 스트리밍 삽입 직후에 데이터 집계를 수행합니다. 스트리밍 삽입 후 쿼리가 강력한 일관성을 나타내지 않으며 쿼리의 보고서에서 진행 중인 데이터가 누락될 수 있음을 발견했습니다. 애플리케이션 디자인을 어떻게 조정할 수 있습니까?

Professional-Data-Engineer 문제 75

실시간 애플리케이션에 Bigtable을 사용하고 있으며 읽기와 쓰기가 혼합된 로드가 많습니다. 최근 추가 사용 사례를 확인했으며 전체 데이터베이스에서 특정 통계를 계산하기 위해 매시간 분석 작업을 수행해야 합니다. 프로덕션 애플리케이션의 안정성과 분석 워크로드를 모두 보장해야 합니다.
어떻게 해야 합니까?