Professional-Data-Engineer 문제 121
온프레미스 클러스터에서 Dataproc 및 GCS로 Hadoop 작업을 마이그레이션했습니다. Spark 작업은 많은 셔핑 작업으로 구성된 복잡한 분석 워크로드이며 초기 데이터는 쪽모이 세공 파일(각각 평균 200-400MB 크기)입니다. Dataproc으로 마이그레이션한 후 성능이 약간 저하되어 이를 최적화하고 싶습니다. 조직은 비용에 매우 민감하므로 이 워크로드에 대해 선점형(비선점형 작업자 2명만 포함)에서 Dataproc을 계속 사용하고 싶습니다.
당신은 무엇을해야합니까?
당신은 무엇을해야합니까?
Professional-Data-Engineer 문제 122
회사는 배치 및 스트림 기반 이벤트 데이터를 모두 수신합니다. 다음을 사용하여 데이터를 처리하려는 경우
예측 가능한 기간 동안의 Google Cloud Dataflow. 그러나 어떤 경우에는 데이터가
늦게 도착하거나 순서가 맞지 않을 수 있습니다. 다음과 같은 데이터를 처리하기 위해 Cloud Dataflow 파이프라인을 어떻게 설계해야 할까요?
늦거나 고장 났습니까?
예측 가능한 기간 동안의 Google Cloud Dataflow. 그러나 어떤 경우에는 데이터가
늦게 도착하거나 순서가 맞지 않을 수 있습니다. 다음과 같은 데이터를 처리하기 위해 Cloud Dataflow 파이프라인을 어떻게 설계해야 할까요?
늦거나 고장 났습니까?
Professional-Data-Engineer 문제 123
거의 3년 전에 새로운 게임 앱을 출시하셨습니다. 전날의 로그 파일을 LOGS_yyyymmdd 형식의 테이블 이름으로 별도의 Google BigQuery 테이블에 업로드했습니다. 테이블 와일드카드 함수를 사용하여 모든 시간 범위에 대한 일일 및 월간 보고서를 생성했습니다.
최근에 긴 날짜 범위를 다루는 일부 쿼리가 1,000개 테이블 제한을 초과하여 실패한다는 사실을 발견했습니다. 이 문제를 어떻게 해결할 수 있습니까?
최근에 긴 날짜 범위를 다루는 일부 쿼리가 1,000개 테이블 제한을 초과하여 실패한다는 사실을 발견했습니다. 이 문제를 어떻게 해결할 수 있습니까?
Professional-Data-Engineer 문제 124
회사의 온프레미스 Apache Hadoop 서버 수명이 거의 다 되었고 IT 부서에서 클러스터를 Google Cloud Dataproc으로 마이그레이션하기로 결정했습니다. 클러스터의 유사 마이그레이션에는 노드당 50TB의 Google 영구 디스크가 필요합니다. CIO는 많은 블록 스토리지를 사용하는 데 드는 비용을 걱정하고 있습니다. 마이그레이션의 스토리지 비용을 최소화하려고 합니다. 당신은 무엇을해야합니까?
Professional-Data-Engineer 문제 125
수백만 개의 사물 인터넷(IoT) 장치에서 제출된 원격 측정 데이터를 처리하기 위해 NoSQL 데이터베이스를 선택하고 있습니다. 데이터의 양은 매년 100TB로 증가하고 있으며 각 데이터 항목에는 약 100개의 속성이 있습니다. 데이터 처리 파이프라인에는 원자성, 일관성, 격리 및 내구성(ACID)이 필요하지 않습니다. 그러나 고가용성과 짧은 대기 시간이 필요합니다. 개별 필드에 대해 쿼리하여 데이터를 분석해야 합니다. 어떤 세 가지 데이터베이스가 귀하의 요구 사항을 충족합니까? (3개를 선택하세요.)
