무료 온라인 액세스 Google.Professional-Data-Engineer.v2023-06-24.q151 모의 시험 (Page 28)

Professional-Data-Engineer 문제 131

매월 타사로부터 CSV 형식의 데이터 파일을 받습니다. 이 데이터를 정리해야 하지만 3개월마다 파일의 스키마가 변경됩니다. 이러한 변환을 구현하기 위한 요구 사항은 다음과 같습니다.
* 일정에 따라 변환 실행
* 개발자가 아닌 분석가가 변환을 수정할 수 있도록 지원
* 변환 설계를 위한 그래픽 도구 제공
어떻게 해야 합니까?

A. Dataframe을 생성하기 전에 Cloud Dataproc에서 Apache Spark를 사용하여 CSV 파일의 스키마를 추론합니다.그런 다음 Cloud Storage에 데이터를
쓰고 BigQuery에 로드하기 전에 Spark SQL에서 변환을 구현합니다.

B. Cloud Dataprep을 사용하여 변환 레시피를 구축 및 유지 관리하고 일정에 따라 실행합니다.

C. 매월 CSV 데이터를 BigQuery에 로드하고 SQL 쿼리를 작성하여 데이터를 표준 스키마로 변환합니다. 변환된 테이블을 SQL 쿼리와 함께 병합

D. 분석가가 Python으로 Cloud Dataflow 파이프라인을 작성하여 변환을 수행하도록 돕습니다. Python 코드는 개정 관리 시스템에 저장하고 수신 데이터의 스키마 변경에 따라 수정해야 합니다.

Professional-Data-Engineer 문제 132

귀하의 회사는 최근 급속도로 성장하여 이전보다 훨씬 더 빠른 속도로 데이터를 수집하고 있습니다. Apache Hadoop에서 일일 배치 MapReduce 분석 작업을 관리합니다. 그러나 최근 데이터 증가로 인해 배치 작업이 뒤처지고 있습니다. 개발 팀이 비용 증가 없이 분석 응답성을 높일 수 있는 방법을 추천해 달라는 요청을 받았습니다. 그들에게 무엇을 추천해야 합니까?

A. Pig에서 작업을 다시 작성합니다.

B. Apache Spark에서 작업을 다시 작성합니다.

C. Hadoop 클러스터의 크기를 늘립니다.

D. Hadoop 클러스터의 크기를 줄이되 Hive에서 작업을 다시 작성합니다.

Professional-Data-Engineer 문제 133

전 세계적으로 분산된 경매 애플리케이션을 통해 사용자는 항목에 입찰할 수 있습니다. 경우에 따라 사용자가 거의 동일한 시간에 동일한 입찰을 하고 다른 애플리케이션 서버에서 해당 입찰을 처리합니다. 각 입찰 이벤트에는 항목, 금액, 사용자 및 타임스탬프가 포함됩니다. 이러한 입찰 이벤트를 단일 위치에 실시간으로 수집하여 어떤 사용자가 먼저 입찰하는지 결정하려고 합니다. 어떻게 해야 합니까?

A. 공유 파일에 파일을 생성하고 애플리케이션 서버가 모든 입찰 이벤트를 해당 파일에 기록하도록 합니다. Apache Hadoop으로 파일을 처리하여 먼저 입찰한 사용자를 식별합니다.

B. 각 애플리케이션 서버가 입찰 이벤트가 발생할 때 Cloud Pub/Sub에 기록하도록 합니다. 입찰 이벤트 정보를 Cloud SQL에 기록하는 커스텀 엔드포인트로 Cloud Pub/Sub의 이벤트를 푸시합니다.

C. 입찰 이벤트를 기록할 각 애플리케이션 서버에 대한 MySQL 데이터베이스를 설정합니다. 각 분산 MySQL 데이터베이스를 주기적으로 쿼리하고 입찰 이벤트 정보로 마스터 MySQL 데이터베이스를 업데이트합니다.

D. 각 애플리케이션 서버가 입찰 이벤트가 발생할 때 Google Cloud Pub/Sub에 기록하도록 합니다. 풀 구독을 사용하여 Google Cloud Dataflow를 사용하여 입찰 이벤트를 가져옵니다. 가장 먼저 처리되는 입찰 이벤트에서 각 항목에 대한 입찰가를 사용자에게 부여합니다.

Professional-Data-Engineer 문제 134

MySQL을 사용하여 Cloud SQL을 배포할 계획입니다. 구역 장애 발생 시 고가용성을 보장해야 합니다. 어떻게 해야 합니까?

A. 하나의 영역에 Cloud SQL 인스턴스를 만들고 동일한 지역 내 다른 영역에 장애 조치 복제본을 만듭니다.

B. 하나의 영역에 Cloud SQL 인스턴스를 생성하고 동일한 지역 내 다른 영역에 읽기 복제본을 생성합니다.

C. 하나의 영역에 Cloud SQL 인스턴스를 만들고 다른 지역의 영역에 외부 읽기 복제본을 구성합니다.

D. 한 지역에 Cloud SQL 인스턴스를 만들고 같은 지역의 Cloud Storage 버킷에 자동 백업을 구성합니다.

Professional-Data-Engineer 문제 135

사례 연구 2 - MJTelco
회사 개요
MJTelco는 전 세계에서 빠르게 성장하고 서비스가 부족한 시장에 네트워크를 구축할 계획인 신생 기업입니다.
이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 기반으로 저렴한 하드웨어로 안정적인 고속 백본 링크를 많이 만들 수 있습니다.
회사 배경
경험이 풍부한 통신 경영진이 설립한 MJTelco는 원래 우주에서 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본은 실시간 분석을 주도하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 위치 가용성 및 비용에 대한 역동적인 지역 정치의 영향을 설명할 수 있도록 네트워크를 과도하게 배포할 계획입니다.
그들의 관리 및 운영 팀은 데이터 소비자 사이의 다 대 다 관계를 생성하고 시스템에서 제공하는 전 세계에 위치하고 있습니다. 신중한 고려 끝에 그들은 퍼블릭 클라우드가 그들의 요구를 지원하는 완벽한 환경이라고 결정했습니다.
솔루션 개념
MJTelco는 자체 연구실에서 성공적인 개념 증명(PoC) 프로젝트를 실행하고 있습니다. 그들은 두 가지 기본 요구 사항이 있습니다.
* PoC를 확장하고 강화하여 50,000개 이상의 설치로 진입할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.
* 기계 학습 주기를 조정하여 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 확인하고 개선합니다.
MJTelco는 또한 개발/테스트, 스테이징 및 프로덕션의 세 가지 개별 운영 환경을 사용하여 실험 실행, 새로운 기능 배포 및 프로덕션 고객 서비스 요구를 충족할 것입니다.
비즈니스 요구 사항
* 최소한의 비용으로 프로덕션 환경을 확장하고 예측할 수 없는 분산 통신 사용자 커뮤니티에서 필요할 때 언제 어디서나 리소스를 인스턴스화합니다.
* 최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
* 분산된 연구 작업자의 분석을 위해 데이터에 대한 안정적이고 시기 적절한 액세스 제공
* 고객에게 영향을 주지 않고 기계 학습 모델의 신속한 반복을 지원하는 격리된 환경을 유지합니다.
기술 요구 사항
* 원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장
* 인스턴스를 빠르게 확장하여 각각 여러 흐름이 있는 10,000~100,000개의 데이터 공급자를 지원합니다.
* 약 2년 동안 저장된 데이터를 추적하는 데이터 테이블에 대한 분석 및 프레젠테이션 허용
100m 레코드/일
* 원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제 인식에 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 매우 안정적으로 구성되어 비용상의 이점을 제공합니다. 안정성 및 용량 약속을 충족하려면 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 선언문
우리의 퍼블릭 클라우드 서비스는 광고된 대로 작동해야 합니다. 데이터를 확장하고 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 모델을 신중하게 연구하고 신속하게 조정할 수 있는 환경도 필요합니다. 우리는 데이터를 처리하기 위해 자동화에 의존하기 때문에 반복하면서 작동할 개발 및 테스트 환경도 필요합니다.
CFO 선언문
데이터 및 분석에 필요한 하드웨어와 소프트웨어를 유지 관리하기에는 프로젝트가 너무 큽니다.
또한 많은 데이터 피드를 모니터링하기 위해 운영 팀에 인력을 배치할 여력이 없으므로 자동화 및 인프라에 의존할 것입니다. Google Cloud의 기계 학습을 통해 양적 연구원은 데이터 파이프라인의 문제가 아니라 가치가 높은 문제를 해결할 수 있습니다.
다음 요구 사항을 충족하는 운영 팀을 위한 시각화를 작성해야 합니다.
* 보고서에는 가장 많이 재전송된 6주 동안의 모든 50,000개 설치의 원격 측정 데이터가 포함되어야 합니다(매분 샘플링).
* 보고서는 라이브 데이터에서 3시간 이상 지연되어서는 안 됩니다.
* 실행 가능한 보고서는 최적이 아닌 링크만 표시해야 합니다.
* 대부분의 차선책 링크는 맨 위로 정렬되어야 합니다.
* 최적이 아닌 링크는 지역별로 그룹화하고 필터링할 수 있습니다.
* 보고서를 로드하기 위한 사용자 응답 시간은 5초 미만이어야 합니다.
어떤 접근 방식이 요구 사항을 충족합니까?

A. Google Cloud Datastore 테이블에 데이터를 로드하고 모든 행을 쿼리하는 Google App Engine 애플리케이션을 작성하고 함수를 적용하여 측정항목을 도출한 다음 Google 차트 및 시각화 API를 사용하여 결과를 테이블에 렌더링합니다.

B. 데이터를 Google 스프레드시트에 로드하고 공식을 사용하여 메트릭을 계산하고 필터/정렬을 사용하여 테이블에 최적이 아닌 링크만 표시합니다.

C. Google BigQuery 테이블에 데이터를 로드하고 데이터에 연결하는 Google Data Studio 360 보고서를 작성하고 측정항목을 계산한 다음 필터 표현식을 사용하여 테이블에서 최적이 아닌 행만 표시합니다.

D. 데이터를 Google BigQuery 테이블에 로드하고, 데이터를 쿼리하는 Google Apps Script를 작성하고, 측정항목을 계산하고, Google 스프레드시트의 테이블에 최적이 아닌 행만 표시합니다.

프리미엄 번들

DumpTop 에서 공유하는 최신 Professional-Data-Engineer 시험 덤프는 Professional-Data-Engineer 시험패스를 도와드릴수 있습니다! DumpTop 은 최근 업데이트된 Professional-Data-Engineer 시험자료를 제공해드립니다. DumpTop Professional-Data-Engineer 덤프도 시험문제 변경에 따라 업데이트되었으며 오답도 수정되었습니다. DumpTop Professional-Data-Engineer 덤프 최신버전을 공유받아보세요.

Professional-Data-Engineer 덤프 프리미엄 버전 액세스

(403 Q&As 덤프, 30%OFF할인코드: KrDump)

다른 버전: 1657Google.Professional-Data-Engineer.v2024-12-06.q306; 1171Google.Professional-Data-Engineer.v2024-08-24.q281; 1831Google.Professional-Data-Engineer.v2023-04-17.q208; 2618Google.Professional-Data-Engineer.v2022-09-06.q248; 2057Google.Professional-Data-Engineer.v2022-05-24.q174

최근 업로드: 118TheBerylInstitute.CPXP.v2026-06-06.q56; 154ACAMS.CAMS7-KR.v2026-06-05.q213; 168PaloAltoNetworks.XSIAM-Analyst.v2026-06-04.q72; 150NLN.NEX.v2026-06-04.q54; 191Microsoft.AZ-500-KR.v2026-06-04.q213; 179Microsoft.DP-600-KR.v2026-06-04.q98; 194Microsoft.AZ-204-KR.v2026-06-04.q237; 179Microsoft.PL-600-KR.v2026-06-04.q112; 238Microsoft.SC-300-KR.v2026-06-03.q151; 208Microsoft.DP-600-KR.v2026-06-03.q70