Professional-Data-Engineer 문제 181

Google Cloud에서 데이터 파이프라인을 구축하고 있습니다. 머신러닝 프로세스를 위해서는 일반적인 방법을 사용하여 데이터를 준비해야 합니다. 로지스틱 회귀 모델을 지원하려고 합니다. 또한 실제 값으로 유지되어야 하며 제거할 수 없는 Null 값을 모니터링하고 조정해야 합니다. 당신은 무엇을 해야 합니까?

Professional-Data-Engineer 문제 182

작업을 실행할 수 있도록 Dataproc 클러스터의 가상 머신에서 사용하는 서비스 계정에 어떤 역할을 할당해야 하나요?

Professional-Data-Engineer 문제 183

귀하의 금융 서비스 회사는 클라우드 기술로 전환하고 있으며 50TB의 금융 시계열 데이터를 클라우드에 저장하려고 합니다. 이 데이터는 자주 업데이트되며 항상 새로운 데이터가 스트리밍됩니다.
또한 회사에서는 이 데이터에 대한 통찰력을 얻기 위해 기존 Apache Hadoop 작업을 클라우드로 이동하려고 합니다.
데이터를 저장하려면 어떤 제품을 사용해야 합니까?

Professional-Data-Engineer 문제 184

다음 조건을 충족하도록 클라우드 기반 기록 데이터 처리 시스템을 설계하고 있습니다.
* 분석되는 데이터는 CSV, Avro, PDF 형식이며 Cloud Dataproc, BigQuery, Compute Engine을 포함한 여러 분석 도구에서 액세스됩니다.
* 스트리밍 데이터 파이프라인은 매일 새로운 데이터를 저장합니다.
* 성능은 솔루션의 요소가 아닙니다.
* 솔루션 설계는 가용성을 극대화해야 합니다.
이 솔루션의 데이터 스토리지를 어떻게 설계해야 합니까?

Professional-Data-Engineer 문제 185

Dataproc 클러스터에는 많은 구성 파일이 포함되어 있습니다. 이러한 파일을 업데이트하려면 --properties 옵션을 사용해야 합니다. 옵션의 형식은 file_prefix:property=_____입니다.