Professional-Data-Engineer 문제 136

Cloud Pub/Sub 주제에서 메시지를 수신하고 EU의 BigQuery 데이터세트에 결과를 쓰는 Cloud Dataflow에서 파이프라인을 실행하고 있습니다. 현재 파이프라인은 europe-west4에 있으며 최대 3명의 작업자(인스턴스 유형 n1-standard-1)가 있습니다. 피크 기간 동안 3명의 작업자가 모두 최대 CPU 사용률에 있을 때 파이프라인이 적시에 레코드를 처리하는 데 어려움을 겪고 있음을 알 수 있습니다. 파이프라인의 성능을 높이기 위해 취할 수 있는 두 가지 조치는 무엇입니까? (2개를 선택하세요.)

Professional-Data-Engineer 문제 137

귀사에서 Google Cloud Storage 및 Google Compute Engine의 Cassandra 클러스터에 저장된 초대형 데이터세트에 대해 복잡한 분석을 수행하고자 하는 새로운 데이터 과학자를 고용했습니다. 과학자는 주로 일부 시각화 작업과 함께 기계 학습 프로젝트에 대한 레이블이 지정된 데이터 세트를 만들고 싶어합니다.
그녀는 노트북이 작업을 수행할 만큼 강력하지 않고 속도가 느려지고 있다고 보고합니다. 당신은 그녀가 그녀의 작업을 수행하는 데 도움이되고 싶습니다. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 138

분석을 위해 BigQuery의 데이터세트를 사용합니다. 동일한 데이터 세트에 대한 액세스 권한을 타사 회사에 제공하려고 합니다. 데이터 공유 비용을 낮게 유지하고 데이터가 최신 상태인지 확인해야 합니다. 어떤 솔루션을 선택해야 합니까?

Professional-Data-Engineer 문제 139

Flowlogistic의 경영진은 현재 Apache Kafka 서버가 실시간 인벤토리 추적 시스템의 데이터 볼륨을 처리할 수 없다고 결정했습니다. 독점 추적 소프트웨어를 제공할 Google Cloud Platform(GCP)에 새 시스템을 구축해야 합니다. 시스템은 다양한 글로벌 소스에서 데이터를 수집하고 실시간으로 처리 및 쿼리하고 데이터를 안정적으로 저장할 수 있어야 합니다. 어떤 GCP 제품 조합을 선택해야 하나요?

Professional-Data-Engineer 문제 140

인프라에는 YouTube 채널 세트가 포함됩니다. 분석을 위해 YouTube 채널 데이터를 Google Cloud로 보내는 프로세스를 만드는 임무를 받았습니다. 전 세계 마케팅 팀이 최신 YouTube 채널 로그 데이터에 대해 ANSI SQL 및 기타 유형의 분석을 수행할 수 있는 솔루션을 설계하려고 합니다. GCP로의 로그 데이터 전송을 어떻게 설정해야 하나요?