Professional-Data-Engineer 문제 251
세 가지 데이터 처리 작업을 개발했습니다. 하나는 Cloud Storage에 업로드된 데이터를 변환하고 결과를 BigQuery에 쓰는 Cloud Dataflow 파이프라인을 실행합니다. 두 번째는 온프레미스 서버에서 데이터를 수집하여 Cloud Storage에 업로드합니다. 세 번째는 타사 데이터 제공업체로부터 정보를 가져와 Cloud Storage에 업로드하는 Cloud Dataflow 파이프라인입니다. 이러한 세 가지 워크플로의 실행을 예약 및 모니터링하고 필요할 때 수동으로 실행할 수 있어야 합니다. 당신은 무엇을 해야 합니까?
Professional-Data-Engineer 문제 252
데이터 파이프라인에 보안 모범 사례를 구현하고 있습니다. 현재 프로젝트 소유자로서 작업을 수동으로 실행하고 있습니다. Google Cloud Storage에서 비공개 정보가 포함된 야간 배치 파일을 가져와 Google Cloud Dataproc 클러스터에서 Spark Scala 작업으로 처리하고 결과를 Google BigQuery에 저장하여 이러한 작업을 자동화하려고 합니다.
이 워크로드를 어떻게 안전하게 실행해야 할까요?
이 워크로드를 어떻게 안전하게 실행해야 할까요?
Professional-Data-Engineer 문제 253
의류 추천을 위한 모델을 구축하고 있습니다. 사용자의 패션 취향은 시간이 지남에 따라 변할 수 있다는 점을 알고 있으므로 새로운 데이터가 제공되면 모델로 다시 스트리밍하는 데이터 파이프라인을 구축합니다. 모델을 훈련하기 위해 이 데이터를 어떻게 사용해야 합니까?
Professional-Data-Engineer 문제 254
미국 지역에 있는 모든 데이터와 함께 Google Cloud의 BigQuery에 관계형 데이터를 저장하고 분석합니다. 또한 미국 지역의 Microsoft Azure 및 Amazon Web Services(AWS) 전반에 걸쳐 다양한 개체 저장소가 있습니다. 데이터 이동을 최대한 최소화하면서 매일 BigQuery의 모든 데이터를 쿼리하려고 합니다. 당신은 무엇을 해야 합니까?
Professional-Data-Engineer 문제 255
Flowlogistic은 실시간 재고 추적 시스템을 출시하고 있습니다. 추적 장치는 모두 패키지 추적 메시지를 보내며, 이제 이 메시지는 Apache Kafka 클러스터 대신 단일 Google Cloud Pub/Sub 주제로 이동됩니다. 그러면 구독자 애플리케이션이 실시간 보고를 위해 메시지를 처리하고 기록 분석을 위해 Google BigQuery에 저장합니다. 시간이 지남에 따라 패키지 데이터를 분석할 수 있도록 하려고 합니다.
어떤 접근 방식을 취해야 합니까?
어떤 접근 방식을 취해야 합니까?
