Professional-Data-Engineer 문제 86

거의 실시간으로 분당 10,000개의 메시지 속도로 Google BigQuery에 소셜 미디어 게시물을 저장하고 분석해야 합니다. 처음에는 개별 게시물에 스트리밍 삽입을 사용하도록 애플리케이션을 디자인합니다.
또한 애플리케이션은 스트리밍 삽입 직후에 데이터 집계를 수행합니다. 스트리밍 삽입 후 쿼리가 강력한 일관성을 나타내지 않고 쿼리의 보고서에서 진행 중인 데이터가 누락될 수 있음을 발견했습니다.

Professional-Data-Engineer 문제 87

Google BigQuery를 데이터 웨어하우스로 사용하고 있습니다. 사용자는 쿼리를 실행하는 시기에 관계없이 다음과 같은 간단한 쿼리가 매우 느리게 실행되고 있다고 보고합니다.
SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country 쿼리에 대한 쿼리 계획을 확인하고 Stage:1의 읽기 섹션에서 다음 출력을 확인합니다.

이 쿼리에 대한 지연의 가장 가능성 있는 원인은 무엇입니까?

Professional-Data-Engineer 문제 88

귀하의 회사는 휴가철 동안 실시간 데이터를 분석하여 다양한 제안을 제공하는 첫 번째 동적 캠페인을 실행하고 있습니다. 데이터 과학자들은 30일 캠페인 기간 동안 매시간 빠르게 증가하는 테라바이트의 데이터를 수집하고 있습니다. 그들은 Google Cloud Dataflow를 사용하여 데이터를 사전 처리하고 Google Cloud Bigtable의 기계 학습 모델에 필요한 기능(신호) 데이터를 수집합니다. 팀은 10TB의 데이터에 대한 초기 로드의 읽기 및 쓰기로 최적이 아닌 성능을 관찰하고 있습니다. 그들은 비용을 최소화하면서 이 성능을 개선하기를 원합니다. 그들은 어떻게 해야 합니까?

Professional-Data-Engineer 문제 89

Dataproc 클러스터에는 많은 구성 파일이 포함되어 있습니다. 이러한 파일을 업데이트하려면 --properties 옵션을 사용해야 합니다. 옵션 형식은 file_prefix:property=_____입니다.

Professional-Data-Engineer 문제 90

BigQuery에서 처리하는 열 수를 줄이는 데 사용할 수 있는 SQL 키워드는 무엇인가요?