무료 온라인 액세스 Google.Professional-Data-Engineer.v2024-12-06.q306 모의 시험 (Page 2)

Professional-Data-Engineer 문제 1

두 가지 다른 유형의 애플리케이션(작업 생성기와 작업 실행기) 간에 데이터를 공유하기 위한 새로운 데이터 파이프라인을 구축하고 있습니다. 솔루션은 사용량 증가에 맞게 확장되어야 하며 기존 애플리케이션의 성능에 부정적인 영향을 미치지 않으면서 새로운 애플리케이션 추가를 수용해야 합니다. 무엇을 해야 할까요?

A. App Engine을 사용하여 애플리케이션에 메시지를 수신하고 전송하기 위한 API를 만듭니다.

B. Cloud Pub/Sub 주제를 사용하여 작업을 게시하고 구독을 사용하여 작업을 실행합니다.

C. Cloud SQL에 테이블을 생성하고 작업 정보가 있는 행을 삽입 및 삭제합니다.

D. Cloud Spanner에 테이블을 생성하고 작업 정보가 있는 행을 삽입 및 삭제합니다.

Professional-Data-Engineer 문제 2

Google Analytics에서 BigQuery로 매일 테라바이트 규모의 고객 행동 데이터가 스트리밍됩니다. 선호도와 같은 고객 정보는 Cloud SQL for MySQL 데이터베이스에 호스팅됩니다. CRM 데이터베이스는 Cloud SQL for PostgreSQL 인스턴스에 호스팅됩니다. 마케팅 팀은 두 데이터베이스의 고객 정보와 고객 행동 데이터를 사용하여 연간 활성 고객을 위한 마케팅 캠페인을 만들고자 합니다. 마케팅 팀이 일반적인 날에는 하루에 100회 이상, 판매 기간에는 최대 300회까지 캠페인을 실행할 수 있도록 해야 합니다. 동시에 Cloud SQL 데이터베이스의 부하를 최소한으로 유지하려고 합니다. 어떻게 해야 할까요?

A. 두 Cloud SQL 데이터베이스에 BigQuery 연결을 만듭니다. 두 데이터베이스에서 BigQuery 연합 쿼리를 사용하고 BigQuery에서 Google 애널리틱스 데이터를 사용하여 이러한 쿼리를 실행합니다.

B. 이러한 쿼리에 필요한 테이블을 두 Cloud SQL 데이터베이스에서 BigQuery로 복제하기 위해 Datastream에 스트림을 생성합니다.

C. Trino로 Dataproc 클러스터를 생성하여 Cloud SQL 데이터베이스와 BigQuery에 연결을 설정하고 쿼리를 실행합니다.

D. Dataproc Serverless를 사용하여 Apache Spark에서 작업을 생성하여 이러한 쿼리에 대해 Cloud SQL 데이터베이스와 BigQuery의 Google Analytics 데이터를 모두 쿼리합니다.

정답: B

Datastream은 Oracle 및 MySQL 데이터베이스에서 BigQuery, Cloud Storage, Cloud SQL, Pub/Sub와 같은 Google Cloud 서비스로 데이터 변경을 스트리밍할 수 있는 서버리스 변경 데이터 캡처(CDC) 및 복제 서비스입니다. Datastream은 소스 데이터베이스 성능에 미치는 영향을 최소화하면서 실시간으로 데이터베이스 변경을 캡처하여 전달합니다. 또한 Datastream은 소스 데이터베이스의 스키마와 데이터 유형을 보존하고 BigQuery에서 해당 테이블을 자동으로 생성하고 업데이트합니다.
Datastream을 사용하면 두 Cloud SQL 데이터베이스에서 필요한 테이블을 BigQuery로 복제하고 소스 데이터베이스와 동기화 상태를 유지할 수 있습니다. 이렇게 하면 마케팅 팀이 Cloud SQL 테이블 대신 BigQuery 테이블에서 쿼리를 실행할 수 있으므로 Cloud SQL 데이터베이스의 부하를 줄일 수 있습니다. 또한 BigQuery의 확장성과 성능을 활용하여 Google Analytics의 고객 행동 데이터와 복제된 테이블의 고객 정보를 쿼리할 수 있습니다. Cloud SQL 데이터베이스에 미치는 영향을 걱정하지 않고 필요한 만큼 자주 쿼리를 실행할 수 있습니다.
옵션 A는 좋은 솔루션이 아닙니다. BigQuery 페더레이션 쿼리를 사용하면 Cloud SQL 데이터베이스와 같은 외부 데이터 소스를 쿼리할 수 있지만 소스 데이터베이스의 부하를 줄이지는 못합니다. 사실, 페더레이션 쿼리는 외부 데이터 소스에서 쿼리 문을 실행하고 결과를 BigQuery에 반환해야 하므로 소스 데이터베이스의 부하를 증가시킬 수 있습니다. 페더레이션 쿼리에는 데이터 유형 매핑, 할당량, 성능 문제와 같은 몇 가지 제한 사항도 있습니다.
옵션 C는 좋은 솔루션이 아닙니다. Trino로 Dataproc 클러스터를 만드는 데는 Datastream을 사용하는 것보다 더 많은 리소스와 관리 오버헤드가 필요하기 때문입니다. Trino는 Cloud SQL 및 BigQuery와 같은 여러 데이터 소스에 연결하여 쿼리를 실행할 수 있는 분산 SQL 쿼리 엔진입니다. 그러나 Trino는 실행하려면 Dataproc 클러스터가 필요하므로 클러스터 노드를 프로비저닝, 구성 및 모니터링해야 합니다. 또한 Cloud SQL 및 BigQuery용 Trino 커넥터를 설치 및 구성하고 Trino SQL 언어로 쿼리를 작성해야 합니다. 게다가 Trino는 Cloud SQL에서 BigQuery로 데이터를 복제하거나 동기화하지 않으므로 Cloud SQL 데이터베이스의 부하가 여전히 높습니다.
옵션 D는 Dataproc Serverless로 Apache Spark에서 작업을 만드는 데 Datastream을 사용하는 것보다 더 많은 코딩 및 처리 능력이 필요하므로 좋은 솔루션이 아닙니다.Apache Spark는 Cloud SQL 및 BigQuery와 같은 다양한 소스에서 데이터를 읽고 쓸 수 있고, 이러한 소스에서 복잡한 변환 및 분석을 수행할 수 있는 분산 데이터 처리 프레임워크입니다.Dataproc Serverless는 클러스터를 관리하지 않고도 Spark 작업을 실행할 수 있는 서버리스 Spark 서비스입니다.그러나 Spark에서는 Python, Scala, Java 또는 R로 코드를 작성하고 Cloud SQL 및 BigQuery용 Spark 커넥터를 사용하여 데이터 소스에 액세스해야 합니다.또한 Spark는 Cloud SQL에서 BigQuery로 데이터를 복제하거나 동기화하지 않으므로 Cloud SQL 데이터베이스의 부하가 여전히 높습니다.참조: Datastream 개요 |Datastream |Google Cloud, Datastream 개념 |Datastream |Google Cloud, Datastream 빠른 시작 |Datastream |Google Cloud, 페더레이션 쿼리 소개 |BigQuery |Google Cloud, Trino 개요 |Dataproc 설명서 |Google Cloud, Dataproc Serverless 개요 |Dataproc 설명서 |Google Cloud, Apache Spark 개요 |Dataproc 설명서 |Google Cloud.

Professional-Data-Engineer 문제 3

Flowlogistic은 실시간 재고 추적 시스템을 출시하고 있습니다. 추적 장치는 모두 패키지 추적 메시지를 보내며, 이 메시지는 이제 Apache Kafka 클러스터 대신 단일 Google Cloud Pub/Sub 토픽으로 전송됩니다. 그런 다음 구독자 애플리케이션은 실시간 보고를 위해 메시지를 처리하고 이를 Google BigQuery에 저장하여 과거 분석을 수행합니다. 패키지 데이터를 시간 경과에 따라 분석할 수 있도록 해야 합니다.
어떤 접근방법을 취해야 할까?

A. Cloud Pub/Sub에서 자동 생성된 타임스탬프를 사용하여 데이터를 정렬합니다.

B. Cloud Pub/Sub 구독자 애플리케이션에서 각 메시지를 수신하는 대로 타임스탬프를 첨부합니다.

C. Clod Pub/Sub으로 전송되는 각 게시자 장치에서 아웃바운드 메시지에 타임스탬프와 패키지 ID를 첨부합니다.

D. BigQuery의 NOW() 함수를 사용하여 이벤트 시간을 기록합니다.

Professional-Data-Engineer 문제 4

Bigtable에서 시계열 데이터의 핫스팟을 피하기 위해 가장 선호되는 방법은 무엇입니까?

A. 현장 홍보

B. 무작위화

C. 소금에 절이다

D. 해싱

Professional-Data-Engineer 문제 5

은행업계의 정부 규정은 고객의 개인식별정보(PII)를 보호하도록 규정하고 있습니다. 귀사는 PII가 액세스 제어되고 암호화되며 주요 데이터 보호 표준을 준수하도록 요구합니다. Cloud Data Loss Prevention(Cloud DIP)을 사용하는 것 외에도 Google에서 권장하는 관행을 따르고 서비스 계정을 사용하여 PII에 대한 액세스를 제어해야 합니다. 어떻게 해야 할까요?

A. 하나의 서비스 계정을 사용하여 Cloud SQL 데이터베이스에 액세스하고 각 인간 사용자에 대해 별도의 서비스 계정을 사용합니다.

B. 주요 데이터 보호 표준을 준수하기 위해 Cloud Storage를 사용합니다. IAM 그룹에 연결된 여러 서비스 계정을 사용하여 각 그룹에 적절한 액세스 권한을 부여합니다.

C. 모든 직원에게 필요한 ID 및 액세스 관리(IAM) 역할을 할당하고 보호 리소스에 액세스하기 위한 단일 서비스 계정을 만듭니다.

D. 주요 데이터 보호 표준을 준수하기 위해 Cloud Storage를 사용하세요. 모든 사용자가 공유하는 하나의 서비스 계정을 사용하세요.

다른 버전: 1554Google.Professional-Data-Engineer.v2024-08-24.q281; 1466Google.Professional-Data-Engineer.v2023-06-24.q151; 1955Google.Professional-Data-Engineer.v2023-04-17.q208; 2801Google.Professional-Data-Engineer.v2022-09-06.q248; 2180Google.Professional-Data-Engineer.v2022-05-24.q174

최근 업로드: 117SolarWinds.Hybrid-Cloud-Observability-Network-Monitoring.v2026-07-18.q115; 127SAP.C_ARCIG.v2026-07-18.q27; 128SAP.C_CR125_2601.v2026-07-17.q26; 142SAP.P-C4H34-2601.v2026-07-17.q32; 156GInI.CInP.v2026-07-16.q100; 156Peoplecert.ITIL-4-CDS.v2026-07-16.q32; 167PythonInstitute.PCAP-31-03.v2026-07-16.q140; 151Oracle.1Z0-171.v2026-07-16.q39; 159IAM.IAM-Certificate.v2026-07-16.q74; 165InsuranceLicensing.NY-Life-Accident-and-Health.v2026-07-15.q40