Professional-Data-Engineer 문제 161

분석 팀은 몇 가지 다른 메트릭을 기반으로 회사와 다시 협력할 가능성이 가장 높은 고객을 결정하기 위해 간단한 통계 모델을 구축하려고 합니다. 그들은 Google Cloud Storage에 저장된 데이터를 사용하여 Apache Spark에서 모델을 실행하기를 원하며 Google Cloud Dataproc을 사용하여 이 작업을 실행하도록 권장했습니다. 테스트에 따르면 이 워크로드는 15개 노드 클러스터에서 약 30분 안에 실행되어 결과를 Google BigQuery로 출력할 수 있습니다. 계획은 이 워크로드를 매주 실행하는 것입니다. 비용 대비 클러스터를 어떻게 최적화해야 합니까?

Professional-Data-Engineer 문제 162

인프라에는 YouTube 채널 세트가 포함됩니다. 분석을 위해 YouTube 채널 데이터를 Google Cloud로 보내는 프로세스를 만드는 임무를 받았습니다. 전 세계 마케팅 팀이 최신 YouTube 채널 로그 데이터에 대해 ANSI SQL 및 기타 유형의 분석을 수행할 수 있는 솔루션을 설계하려고 합니다. GCP로의 로그 데이터 전송을 어떻게 설정해야 하나요?

Professional-Data-Engineer 문제 163

수백만 개의 사물 인터넷(IoT) 장치에서 제출된 원격 측정 데이터를 처리하기 위해 NoSQL 데이터베이스를 선택하고 있습니다. 데이터의 양은 매년 100TB로 증가하고 있으며 각 데이터 항목은 약
100 속성. 데이터 처리 파이프라인에는 원자성, 일관성, 격리 및 내구성(ACID)이 필요하지 않습니다. 그러나 고가용성과 짧은 대기 시간이 필요합니다.
개별 필드에 대해 쿼리하여 데이터를 분석해야 합니다. 어떤 세 가지 데이터베이스가 귀하의 요구 사항을 충족합니까? (3개를 선택하세요.)

Professional-Data-Engineer 문제 164

데이터 과학자가 BigQuery ML 모델을 만들고 예측을 제공할 ML 파이프라인을 만들도록 요청합니다.
지연 시간이 100밀리초 미만인 개별 사용자 ID에 대한 예측을 제공해야 하는 REST API 애플리케이션이 있습니다. 다음 쿼리를 사용하여 예측을 생성합니다. SELECT predicted_label, user_id FROM ML.PREDICT(MODEL 'dataset.model', table user_features). ML 파이프라인을 어떻게 생성해야 합니까?

Professional-Data-Engineer 문제 165

귀하의 팀은 이진 분류 문제를 해결하기 위해 노력하고 있습니다. 기본 매개변수를 사용하여 지원 벡터 머신(SVM) 분류기를 훈련했으며 검증 세트에서 곡선 아래 영역(AUC) 0.87을 받았습니다.
모델의 AUC를 늘리려고 합니다. 당신은 무엇을해야합니까?