무료 온라인 액세스 Google.Professional-Data-Engineer.v2022-09-06.q248 모의 시험 (Page 26)

Professional-Data-Engineer 문제 121

온프레미스 클러스터에서 Dataproc 및 GCS로 Hadoop 작업을 마이그레이션했습니다. Spark 작업은 많은 셔핑 작업으로 구성된 복잡한 분석 워크로드이며 초기 데이터는 쪽모이 세공 파일(각각 평균 200-400MB 크기)입니다. Dataproc으로 마이그레이션한 후 성능이 약간 저하되어 이를 최적화하고 싶습니다. 조직은 비용에 매우 민감하므로 이 워크로드에 대해 선점형(비선점형 작업자 2명만 포함)에서 Dataproc을 계속 사용하고 싶습니다.
당신은 무엇을해야합니까?

A. 쪽모이 세공 파일 대신 TFRecords 형식(파일당 약 200MB)으로 전환합니다.

B. 최소 1GB가 되도록 쪽모이 세공 마루 파일의 크기를 늘립니다.

C. HDD에서 SSD로 전환, GCS에서 HDFS로 초기 데이터 복사, Spark 작업을 실행하고 결과를 다시 GCS로 복사합니다.

D. HDD에서 SSD로 전환하고 선점형 VM 구성을 재정의하여 부팅 디스크 크기를 늘립니다.

Professional-Data-Engineer 문제 122

회사는 배치 및 스트림 기반 이벤트 데이터를 모두 수신합니다. 다음을 사용하여 데이터를 처리하려는 경우
예측 가능한 기간 동안의 Google Cloud Dataflow. 그러나 어떤 경우에는 데이터가
늦게 도착하거나 순서가 맞지 않을 수 있습니다. 다음과 같은 데이터를 처리하기 위해 Cloud Dataflow 파이프라인을 어떻게 설계해야 할까요?
늦거나 고장 났습니까?

A. 지연된 모든 데이터를 캡처하도록 슬라이딩 윈도우를 설정합니다.

B. 모든 데이터 소스 유형(스트림 또는 배치)에 타임스탬프가 있는지 확인하고 타임스탬프를 사용하여 정의
지연된 데이터에 대한 논리.

C. 단일 글로벌 창을 설정하여 모든 데이터를 캡처합니다.

D. 워터마크와 타임스탬프를 사용하여 지연된 데이터를 캡처합니다.

Professional-Data-Engineer 문제 123

거의 3년 전에 새로운 게임 앱을 출시하셨습니다. 전날의 로그 파일을 LOGS_yyyymmdd 형식의 테이블 이름으로 별도의 Google BigQuery 테이블에 업로드했습니다. 테이블 와일드카드 함수를 사용하여 모든 시간 범위에 대한 일일 및 월간 보고서를 생성했습니다.
최근에 긴 날짜 범위를 다루는 일부 쿼리가 1,000개 테이블 제한을 초과하여 실패한다는 사실을 발견했습니다. 이 문제를 어떻게 해결할 수 있습니까?

A. 쿼리 캐싱을 활성화하여 이전 달의 데이터를 캐싱할 수 있습니다.

B. 모든 일별 로그 테이블을 날짜로 파티션된 테이블로 변환

C. 매월 처리할 별도의 보기를 만들고 이 보기에서 쿼리합니다.

D. 분할된 테이블을 분할된 단일 테이블로 변환

Professional-Data-Engineer 문제 124

회사의 온프레미스 Apache Hadoop 서버 수명이 거의 다 되었고 IT 부서에서 클러스터를 Google Cloud Dataproc으로 마이그레이션하기로 결정했습니다. 클러스터의 유사 마이그레이션에는 노드당 50TB의 Google 영구 디스크가 필요합니다. CIO는 많은 블록 스토리지를 사용하는 데 드는 비용을 걱정하고 있습니다. 마이그레이션의 스토리지 비용을 최소화하려고 합니다. 당신은 무엇을해야합니까?

A. 모든 데이터를 저장할 디스크가 충분하도록 Cloud Dataproc 클러스터를 조정합니다.

B. Google Cloud Storage에 데이터를 넣습니다.

C. 콜드 데이터 중 일부를 Google Cloud Storage로 마이그레이션하고 핫 데이터만 Persistent Disk에 보관합니다.

D. Cloud Dataproc 클러스터에 선점형 가상 머신(VM)을 사용합니다.

Professional-Data-Engineer 문제 125

수백만 개의 사물 인터넷(IoT) 장치에서 제출된 원격 측정 데이터를 처리하기 위해 NoSQL 데이터베이스를 선택하고 있습니다. 데이터의 양은 매년 100TB로 증가하고 있으며 각 데이터 항목에는 약 100개의 속성이 있습니다. 데이터 처리 파이프라인에는 원자성, 일관성, 격리 및 내구성(ACID)이 필요하지 않습니다. 그러나 고가용성과 짧은 대기 시간이 필요합니다. 개별 필드에 대해 쿼리하여 데이터를 분석해야 합니다. 어떤 세 가지 데이터베이스가 귀하의 요구 사항을 충족합니까? (3개를 선택하세요.)

A. HBase

B. MySQL

C. 카산드라

D. Hive가 있는 HDFS

E. 레디스

F. 몽고DB

다른 버전: 1661Google.Professional-Data-Engineer.v2024-12-06.q306; 1207Google.Professional-Data-Engineer.v2024-08-24.q281; 1326Google.Professional-Data-Engineer.v2023-06-24.q151; 1831Google.Professional-Data-Engineer.v2023-04-17.q208; 2057Google.Professional-Data-Engineer.v2022-05-24.q174

최근 업로드: 110Snowflake.ADA-C02.v2026-06-08.q23; 126Microsoft.SC-300-KR.v2026-06-08.q173; 112Microsoft.DP-300-KR.v2026-06-08.q157; 117Microsoft.MS-102-KR.v2026-06-08.q240; 113Microsoft.DP-300-KR.v2026-06-08.q176; 119Microsoft.SC-100-KR.v2026-06-08.q115; 121TheBerylInstitute.CPXP.v2026-06-06.q56; 190ACAMS.CAMS7-KR.v2026-06-05.q213; 181PaloAltoNetworks.XSIAM-Analyst.v2026-06-04.q72; 156NLN.NEX.v2026-06-04.q54