Professional-Data-Engineer 문제 271
GCE VM 인스턴스에 MariaDB SQL 데이터베이스를 배포하고 모니터링 및 알림을 구성해야 합니다. 최소한의 개발 노력으로 MariaDB에서 네트워크 연결, 디스크 IO 및 복제 상태를 포함한 메트릭을 수집하고 대시보드 및 알림에 StackDriver를 사용하려고 합니다.
어떻게 해야 할까요?
어떻게 해야 할까요?
Professional-Data-Engineer 문제 272
귀사는 현재 캠페인을 위한 데이터 파이프라인을 설정하고 있습니다. 모든 Google Cloud Pub/Sub 스트리밍 데이터의 경우 중요한 비즈니스 요구 사항 중 하나는 캠페인 중에 입력과 타이밍을 주기적으로 식별할 수 있어야 한다는 것입니다. 엔지니어는 이 목적을 위해 Google Cloud Dataflow에서 윈도잉과 변환을 사용하기로 결정했습니다. 그러나 이 기능을 테스트할 때 Cloud Dataflow 작업이 모든 스트리밍 삽입에 실패한다는 것을 알게 되었습니다. 이 문제의 가장 큰 원인은 무엇일까요?
Professional-Data-Engineer 문제 273
귀사는 많은 수의 뉴런과 레이어를 가진 TensorFlow 신경망 모델을 구축했습니다. 이 모델은 훈련 데이터에 잘 맞습니다. 그러나 새로운 데이터로 테스트했을 때 성능이 좋지 않습니다.
이 문제를 해결하려면 어떤 방법을 사용할 수 있나요?
이 문제를 해결하려면 어떤 방법을 사용할 수 있나요?
Professional-Data-Engineer 문제 274
머신 러닝 데이터 세트를 훈련 데이터와 테스트 데이터로 분할해야 하는 이유는 무엇입니까?
Professional-Data-Engineer 문제 275
기존 온프레미스 데이터 전략을 현대화해야 합니다. 귀하의 조직은 현재 이를 사용합니다.
* 데이터 복제를 위한 온프레미스 Hadoop 분산 파일 시스템(HDFS)을 포함하여 여러 개의 대규모 데이터 세트를 처리하기 위한 Apache Hadoop 클러스터.
* Apache Airflow는 수천 개의 작업 단계로 구성된 수백 개의 ETL 파이프라인을 조율합니다.
Hadoop 워크로드를 처리할 수 있고 기존 오케스트레이션 프로세스를 최소한으로 변경해야 하는 Google Cloud의 새로운 아키텍처를 설정해야 합니다. 무엇을 해야 할까요?
* 데이터 복제를 위한 온프레미스 Hadoop 분산 파일 시스템(HDFS)을 포함하여 여러 개의 대규모 데이터 세트를 처리하기 위한 Apache Hadoop 클러스터.
* Apache Airflow는 수천 개의 작업 단계로 구성된 수백 개의 ETL 파이프라인을 조율합니다.
Hadoop 워크로드를 처리할 수 있고 기존 오케스트레이션 프로세스를 최소한으로 변경해야 하는 Google Cloud의 새로운 아키텍처를 설정해야 합니다. 무엇을 해야 할까요?
