무료 온라인 액세스 Google.Professional-Data-Engineer.v2024-12-06.q306 모의 시험 (Page 27)

Professional-Data-Engineer 문제 126

귀하는 Google BigQuery를 데이터 웨어하우스로 사용하고 있습니다. 귀하의 사용자는 다음 간단한 쿼리가 언제 쿼리를 실행하든 매우 느리게 실행된다고 보고합니다.
SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country Stage:1의 읽기 섹션에서 쿼리에 대한 쿼리 계획을 확인하고 다음 출력을 확인합니다.

이 질의가 지연되는 가장 큰 원인은 무엇일까요?

A. [myproject:mydataset.mytable] 테이블의 주 또는 도시 열에 NULL 값이 너무 많습니다.

B. [myproject:mydataset.mytable] 테이블에 파티션이 너무 많습니다.

C. 사용자가 시스템에서 동시에 너무 많은 쿼리를 실행하고 있습니다.

D. [myproject:mydataset.mytable] 테이블의 대부분 행은 국가 열에 동일한 값을 가지고 있어 데이터 왜곡이 발생합니다.

Professional-Data-Engineer 문제 127

기존 온프레미스 데이터 전략을 현대화해야 합니다. 귀하의 조직은 현재 이를 사용합니다.
* 데이터 복제를 위한 온프레미스 Hadoop 분산 파일 시스템(HDFS)을 포함하여 여러 개의 대규모 데이터 세트를 처리하기 위한 Apache Hadoop 클러스터.
* Apache Airflow는 수천 개의 작업 단계로 구성된 수백 개의 ETL 파이프라인을 조율합니다.
Hadoop 워크로드를 처리할 수 있고 기존 오케스트레이션 프로세스를 최소한으로 변경해야 하는 Google Cloud의 새로운 아키텍처를 설정해야 합니다. 무엇을 해야 할까요?

A. Dataproc을 사용하여 Hadoop 클러스터를 Google Cloud로 마이그레이션하고 Cloud Storage를 사용하여 모든 HDFS 사용 사례를 처리합니다. ETL 파이프라인을 Dataflow로 변환합니다.

B. 대규모 작업 부하에는 Bigtable을 사용하고, Cloud Storage에 연결하여 모든 HDFS 사용 사례를 처리합니다. Cloud Composer로 파이프라인을 조정합니다.

C. Dataproc을 사용하여 Hadoop 클러스터를 Google Cloud로 마이그레이션하고 Cloud Storage를 사용하여 모든 HDFS 사용 사례를 처리합니다. Cloud Data Fusion을 사용하여 ETL 파이프라인을 시각적으로 설계하고 배포합니다.

D. Dataproc을 사용하여 Hadoop 클러스터를 Google Cloud로 마이그레이션하고 Cloud Storage를 사용하여 모든 HDFS 사용 사례를 처리합니다. Cloud Composer로 파이프라인을 조정합니다.

정답: D

Dataproc은 Google Cloud에서 Apache Hadoop 및 Spark 워크로드를 실행할 수 있는 완전 관리형 서비스입니다. 오픈 소스 에코시스템과 호환되므로 최소한의 변경으로 기존 Hadoop 클러스터를 Dataproc으로 마이그레이션할 수 있습니다. Cloud Storage는 확장 가능하고 내구성이 뛰어나며 비용 효율적인 개체 스토리지 서비스로, 데이터를 저장하고 액세스하는 데 HDFS를 대체할 수 있습니다. Cloud Storage는 커넥터를 통해 Hadoop과 상호 운용성을 제공하므로 Dataproc 작업의 데이터 소스 또는 싱크로 사용할 수 있습니다. Cloud Composer는 Apache Airflow를 사용하여 워크플로를 만들고, 예약하고, 모니터링할 수 있는 완전 관리형 서비스입니다. Dataproc, BigQuery, Dataflow, Pub/Sub와 같은 Google Cloud 서비스와 통합되어 다양한 플랫폼에서 ETL 파이프라인을 오케스트레이션할 수 있습니다. Cloud Composer는 기존 Airflow 코드와 호환되므로 최소한의 변경으로 기존 오케스트레이션 프로세스를 Cloud Composer로 마이그레이션할 수 있습니다.
다른 옵션은 이 사용 사례에 Dataproc 및 Cloud Composer만큼 적합하지 않습니다. 기존 코드를 더 많이 변경해야 하거나 요구 사항을 충족하지 못하기 때문입니다. Dataflow는 Apache Beam을 사용하여 확장 가능한 데이터 처리 파이프라인을 만들고 실행할 수 있는 완전 관리형 서비스입니다. 그러나 Dataflow는 기존 Hadoop 코드와 호환되지 않으므로 Beam을 사용하여 ETL 파이프라인을 다시 작성해야 합니다. Bigtable은 크고 복잡한 데이터 세트를 처리할 수 있는 완전 관리형 NoSQL 데이터베이스 서비스입니다.
그러나 Bigtable은 기존 Hadoop 코드와 호환되지 않으므로 Bigtable API를 사용하여 쿼리와 애플리케이션을 다시 작성해야 합니다. Cloud Data Fusion은 그래픽 인터페이스를 사용하여 데이터 통합 파이프라인을 시각적으로 설계하고 배포할 수 있는 완전 관리형 서비스입니다. 그러나 Cloud Data Fusion은 기존 Airflow 코드와 호환되지 않으므로 Cloud Data Fusion UI를 사용하여 오케스트레이션 프로세스를 다시 만들어야 합니다. 참조:
* Dataproc 개요
* Hadoop을 위한 클라우드 스토리지 커넥터
* Cloud Composer 개요

Professional-Data-Engineer 문제 128

projects.regions.clusters.create 작업으로 새 Cloud Dataproc 클러스터를 만들 때는 프로젝트, 지역, 이름, ____라는 네 가지 값이 필요합니다.

A. 구역

B. 노드

C. 라벨

D. 유형

Professional-Data-Engineer 문제 129

회사 내 여러 부서에 대해 BigQuery에 대한 액세스를 설정해야 합니다. 솔루션은 다음 요구 사항을 준수해야 합니다.
* 각 부서는 자체 데이터에만 접근해야 합니다.
* 각 부서에는 테이블을 만들고 업데이트하여 팀에 제공해야 하는 한 명 이상의 리드가 있습니다.
* 각 부서에는 데이터를 쿼리할 수는 있지만 수정할 수는 없는 데이터 분석가가 있습니다.
BigQuery에서 데이터에 대한 액세스 권한을 어떻게 설정해야 하나요?

A. 각 부서에 대한 데이터 세트를 만듭니다. 부서 책임자에게 OWNER 역할을 할당하고 데이터 분석가에게 데이터 세트의 WRITER 역할을 할당합니다.

B. 각 부서에 대한 데이터 세트를 만듭니다. 부서 책임자에게 WRITER 역할을 할당하고 데이터 분석가에게 데이터 세트에 대한 READER 역할을 할당합니다.

C. 각 부서에 대한 테이블을 만듭니다. 부서 책임자에게 소유자 역할을 할당하고, 데이터 분석가에게 테이블이 있는 프로젝트의 편집자 역할을 할당합니다.

D. 각 부서에 대한 테이블을 만듭니다. 부서 책임자에게 편집자 역할을 할당하고, 데이터 분석가에게 테이블이 있는 프로젝트의 뷰어 역할을 할당합니다.

Professional-Data-Engineer 문제 130

매달 제3자로부터 CSV 형식의 데이터 파일을 받습니다. 이 데이터를 정리해야 하지만, 3개월마다 파일의 스키마가 변경됩니다. 이러한 변환을 구현하기 위한 요구 사항은 다음과 같습니다.
* 일정에 따라 변환 실행
* 개발자가 아닌 분석가가 변환을 수정할 수 있도록 함
* 변환 설계를 위한 그래픽 도구 제공
어떻게 해야 할까요?

A. 매월 CSV 데이터를 BigQuery에 로드하고, SQL 쿼리를 작성하여 데이터를 표준 스키마로 변환합니다. 변환된 테이블을 SQL 쿼리와 함께 병합합니다.

B. 분석가가 Python으로 Cloud Dataflow 파이프라인을 작성하여 변환을 수행하도록 돕습니다. Python 코드는 버전 관리 시스템에 저장되어야 하며 들어오는 데이터의 스키마가 변경되면 수정되어야 합니다.

C. 데이터 프레임을 만들기 전에 Cloud Dataproc에서 Apache Spark를 사용하여 CSV 파일의 스키마를 유추합니다.
그런 다음 Cloud Storage에 데이터를 쓰고 BigQuery에 로드하기 전에 Spark SQL에서 변환을 구현합니다.

D. Cloud Dataprep을 사용하여 변환 레시피를 빌드하고 유지 관리하고 예약된 기준으로 실행합니다.

다른 버전: 1245Google.Professional-Data-Engineer.v2024-08-24.q281; 1363Google.Professional-Data-Engineer.v2023-06-24.q151; 1831Google.Professional-Data-Engineer.v2023-04-17.q208; 2627Google.Professional-Data-Engineer.v2022-09-06.q248; 2059Google.Professional-Data-Engineer.v2022-05-24.q174

최근 업로드: 128SAP.C_S4CPB_2602.v2026-06-13.q7; 145SAP.C-S4CS-2602.v2026-06-13.q29; 159Salesforce.Slack-Con-201.v2026-06-13.q86; 162Oracle.1Z1-136.v2026-06-13.q46; 137BCS.BAPv5.v2026-06-13.q62; 131PaloAltoNetworks.SSE-Engineer.v2026-06-13.q18; 136SAP.C_CR125.v2026-06-13.q26; 130Proofpoint.PPAN01.v2026-06-13.q19; 141Workday.Workday-Pro-Time-Tracking.v2026-06-13.q19; 160API.API-1184.v2026-06-12.q40