Professional-Data-Engineer 문제 241

Dataflow 프로그램을 로컬에서 실행하려면 어떤 Java SDK 클래스를 사용해야 합니까?

Professional-Data-Engineer 문제 242

다음 중 Dataproc 클러스터 인스턴스의 소프트웨어를 사용자 정의하는 방법이 아닌 것은 무엇입니까?

Professional-Data-Engineer 문제 243

BigQuery에 회사 보고서를 생성하는 데 사용되는 데이터가 있습니다. 일부 주간 임원 보고서 필드가 회사 표준에 따른 형식과 일치하지 않는 것을 알아챘습니다. 예를 들어, 보고서 오류에는 다른 전화 형식과 다른 국가 코드 식별자가 포함됩니다. 이는 빈번한 문제이므로 데이터를 정규화하기 위한 반복 작업을 만들어야 합니다. 코딩이 필요 없는 빠른 솔루션이 필요합니다. 어떻게 해야 합니까?

Professional-Data-Engineer 문제 244

귀하는 Google BigQuery를 데이터 웨어하우스로 사용하고 있습니다. 귀하의 사용자는 다음 간단한 쿼리가 언제 쿼리를 실행하든 매우 느리게 실행된다고 보고합니다.
SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country Stage:1의 읽기 섹션에서 쿼리에 대한 쿼리 계획을 확인하고 다음 출력을 확인합니다.

이 질의가 지연되는 가장 큰 원인은 무엇일까요?

Professional-Data-Engineer 문제 245

대형 전자상거래 회사에서 일합니다. Bigtable에 고객 주문 데이터를 저장합니다. 30일 후에 데이터를 삭제하도록 가비지 수집 정책을 설정하고 버전 수는 1로 설정합니다. 데이터 분석가가 총 고객 지출을 보고하기 위해 쿼리를 실행할 때 분석가는 때때로 30일 이상 된 고객 데이터를 봅니다. 비용과 오버헤드를 최소화하는 동시에 분석가가 30일 이상 된 고객 데이터를 보지 못하도록 해야 합니다. 어떻게 해야 할까요?