무료 온라인 액세스 Google.Professional-Data-Engineer.v2024-08-24.q281 모의 시험 (Page 52)

Professional-Data-Engineer 문제 251

세 가지 데이터 처리 작업을 개발했습니다. 하나는 Cloud Storage에 업로드된 데이터를 변환하고 결과를 BigQuery에 쓰는 Cloud Dataflow 파이프라인을 실행합니다. 두 번째는 온프레미스 서버에서 데이터를 수집하여 Cloud Storage에 업로드합니다. 세 번째는 타사 데이터 제공업체로부터 정보를 가져와 Cloud Storage에 업로드하는 Cloud Dataflow 파이프라인입니다. 이러한 세 가지 워크플로의 실행을 예약 및 모니터링하고 필요할 때 수동으로 실행할 수 있어야 합니다. 당신은 무엇을 해야 합니까?

A. Cloud Composer에서 직접 비순환 그래프를 만들어 작업을 예약하고 모니터링합니다.

B. Stackdriver Monitoring을 사용하고 웹훅 알림으로 경고를 설정하여 작업을 트리거합니다.

C. GCP API 호출을 사용하여 작업 상태를 예약하고 요청하는 App Engine 애플리케이션을 개발합니다.

D. Compute Engine 인스턴스에서 크론 작업을 설정하여 GCP API 호출을 사용하여 파이프라인을 예약하고 모니터링합니다.

Professional-Data-Engineer 문제 252

데이터 파이프라인에 보안 모범 사례를 구현하고 있습니다. 현재 프로젝트 소유자로서 작업을 수동으로 실행하고 있습니다. Google Cloud Storage에서 비공개 정보가 포함된 야간 배치 파일을 가져와 Google Cloud Dataproc 클러스터에서 Spark Scala 작업으로 처리하고 결과를 Google BigQuery에 저장하여 이러한 작업을 자동화하려고 합니다.
이 워크로드를 어떻게 안전하게 실행해야 할까요?

A. 배치 파일을 읽고 BigQuery에 쓸 수 있는 서비스 계정을 사용합니다.

B. Cloud Dataproc 클러스터에서 프로젝트 뷰어 역할이 있는 사용자 계정을 사용하여 배치 파일을 읽고 BigQuery에 씁니다.

C. 나만 파일을 볼 수 있도록 Google Cloud Storage 버킷을 제한합니다.

D. 서비스 계정에 프로젝트 소유자 역할을 부여하고 이를 사용하여 작업을 실행합니다.

Professional-Data-Engineer 문제 253

의류 추천을 위한 모델을 구축하고 있습니다. 사용자의 패션 취향은 시간이 지남에 따라 변할 수 있다는 점을 알고 있으므로 새로운 데이터가 제공되면 모델로 다시 스트리밍하는 데이터 파이프라인을 구축합니다. 모델을 훈련하기 위해 이 데이터를 어떻게 사용해야 합니까?

A. 새 데이터에 대해서만 모델을 지속적으로 재교육합니다.

B. 기존 데이터와 새 데이터의 조합으로 모델을 지속적으로 재교육합니다.

C. 새 데이터를 테스트 세트로 사용하면서 기존 데이터를 학습합니다.

D. 기존 데이터를 테스트 세트로 사용하면서 새 데이터에 대해 학습합니다.

Professional-Data-Engineer 문제 254

미국 지역에 있는 모든 데이터와 함께 Google Cloud의 BigQuery에 관계형 데이터를 저장하고 분석합니다. 또한 미국 지역의 Microsoft Azure 및 Amazon Web Services(AWS) 전반에 걸쳐 다양한 개체 저장소가 있습니다. 데이터 이동을 최대한 최소화하면서 매일 BigQuery의 모든 데이터를 쿼리하려고 합니다. 당신은 무엇을 해야 합니까?

A. Cloud Shell gautil rsync 인수를 사용하여 AWS 및 Azure에서 Cloud Storage로 파일을 로드합니다.

B. Azure 및 AWS에서 BigQuery로 파일을 수집하기 위한 Dataflow 파이프라인을 만듭니다.

C. BigQuery Omni 기능과 BigLake 테이블을 사용하여 Azure 및 AWS에서 파일을 쿼리합니다.

D. BigQuery Data Transfer Service를 사용하여 Azure 및 AWS에서 BigQuery로 파일을 로드합니다.

Professional-Data-Engineer 문제 255

Flowlogistic은 실시간 재고 추적 시스템을 출시하고 있습니다. 추적 장치는 모두 패키지 추적 메시지를 보내며, 이제 이 메시지는 Apache Kafka 클러스터 대신 단일 Google Cloud Pub/Sub 주제로 이동됩니다. 그러면 구독자 애플리케이션이 실시간 보고를 위해 메시지를 처리하고 기록 분석을 위해 Google BigQuery에 저장합니다. 시간이 지남에 따라 패키지 데이터를 분석할 수 있도록 하려고 합니다.
어떤 접근 방식을 취해야 합니까?

A. Cloud Pub/Sub 구독자 애플리케이션의 각 메시지가 수신되면 타임스탬프를 첨부합니다.

B. 각 게시자 기기의 아웃바운드 메시지가 Clod Pub/Sub로 전송될 때 타임스탬프와 패키지 ID를 첨부합니다.

C. BigQuery에서 NOW() 함수를 사용하여 이벤트 시간을 기록합니다.

D. Cloud Pub/Sub에서 자동으로 생성된 타임스탬프를 사용하여 데이터를 정렬합니다.

정답: B

주제 2, MJTelco 사례 연구
회사 개요
MJTelco는 빠르게 성장하고 있지만 서비스가 부족한 전 세계 시장에서 네트워크를 구축하려는 스타트업입니다. 이 회사는 혁신적인 광통신 하드웨어에 대한 특허를 보유하고 있습니다. 이러한 특허를 바탕으로 저렴한 하드웨어로 안정적인 고속 백본 링크를 많이 만들 수 있습니다.
회사 배경
숙련된 통신 경영진이 설립한 MJTelco는 원래 우주에서의 통신 문제를 극복하기 위해 개발된 기술을 사용합니다. 운영의 기본으로서 실시간 분석을 촉진하고 기계 학습을 통합하여 토폴로지를 지속적으로 최적화하는 분산 데이터 인프라를 구축해야 합니다. 하드웨어가 저렴하기 때문에 동적 지역 정치가 위치 가용성 및 비용에 미치는 영향을 설명할 수 있도록 네트워크를 과도하게 배포할 계획입니다.
관리 및 운영 팀은 전 세계에 위치하여 데이터 소비자와 시스템 제공 간의 다대다 관계를 형성합니다. 그들은 신중한 고려 끝에 퍼블릭 클라우드가 그들의 요구 사항을 지원하기에 완벽한 환경이라고 결정했습니다.
솔루션 컨셉
MJTelco는 자사 연구실에서 성공적인 개념 증명(PoC) 프로젝트를 진행하고 있습니다. 두 가지 주요 요구 사항이 있습니다.
PoC를 확장하고 강화하여 설치 수가 50,000개 이상으로 증가할 때 생성되는 훨씬 더 많은 데이터 흐름을 지원합니다.
기계 학습 주기를 개선하여 토폴로지 정의를 제어하는 데 사용하는 동적 모델을 검증하고 개선합니다.
MJTelco는 또한 실험 실행, 새로운 기능 배포 및 생산 고객 서비스 요구 사항을 충족하기 위해 개발/테스트, 준비 및 생산이라는 세 가지 별도의 운영 환경을 사용할 것입니다.
비즈니스 요구 사항
예측할 수 없는 분산 통신 사용자 커뮤니티에서 필요할 때 언제 어디서나 리소스를 인스턴스화하여 최소한의 비용으로 프로덕션 환경을 확장합니다.
최첨단 기계 학습 및 분석을 보호하기 위해 독점 데이터의 보안을 보장합니다.
분산된 연구 인력의 분석을 위해 데이터에 대한 안정적이고 시기적절한 액세스 제공
고객에게 영향을 주지 않고 기계 학습 모델의 신속한 반복을 지원하는 격리된 환경을 유지합니다.
기술 요구 사항
원격 측정 데이터의 안전하고 효율적인 전송 및 저장 보장
각각 여러 흐름이 있는 10,000~100,000개의 데이터 공급자를 지원하도록 인스턴스를 빠르게 확장합니다.
하루에 약 1억 개의 레코드를 저장하는 최대 2년간의 데이터를 추적하는 데이터 테이블에 대한 분석 및 프리젠테이션 허용
원격 측정 흐름과 프로덕션 학습 주기 모두에서 데이터 파이프라인 문제를 인식하는 데 초점을 맞춘 모니터링 인프라의 신속한 반복을 지원합니다.
CEO 성명서
우리의 비즈니스 모델은 특허, 분석 및 동적 기계 학습에 의존합니다. 우리의 저렴한 하드웨어는 신뢰성이 높도록 구성되어 있어 비용상의 이점을 제공합니다. 우리는 안정성과 용량 약속을 충족하기 위해 대규모 분산 데이터 파이프라인을 신속하게 안정화해야 합니다.
CTO 성명서
우리의 퍼블릭 클라우드 서비스는 광고된 대로 운영되어야 합니다. 우리에게는 데이터를 확장하고 안전하게 유지하는 리소스가 필요합니다. 또한 데이터 과학자가 신중하게 모델을 연구하고 신속하게 조정할 수 있는 환경도 필요합니다. 우리는 데이터 처리를 자동화에 의존하기 때문에 반복 작업을 수행하려면 개발 및 테스트 환경도 필요합니다.
CFO 성명서
데이터와 분석에 필요한 하드웨어와 소프트웨어를 유지 관리하기에는 프로젝트 규모가 너무 큽니다. 또한 우리는 너무 많은 데이터 피드를 모니터링하기 위해 운영팀을 인력을 확보할 여력이 없으므로 자동화와 인프라에 의존할 것입니다. Google Cloud의 머신러닝을 사용하면 정량적 연구원이 데이터 파이프라인 문제 대신 중요한 문제를 해결할 수 있습니다.

다른 버전: 1652Google.Professional-Data-Engineer.v2024-12-06.q306; 1315Google.Professional-Data-Engineer.v2023-06-24.q151; 1831Google.Professional-Data-Engineer.v2023-04-17.q208; 2617Google.Professional-Data-Engineer.v2022-09-06.q248; 2055Google.Professional-Data-Engineer.v2022-05-24.q174

최근 업로드: 114TheBerylInstitute.CPXP.v2026-06-06.q56; 146ACAMS.CAMS7-KR.v2026-06-05.q213; 164PaloAltoNetworks.XSIAM-Analyst.v2026-06-04.q72; 139NLN.NEX.v2026-06-04.q54; 180Microsoft.AZ-500-KR.v2026-06-04.q213; 167Microsoft.DP-600-KR.v2026-06-04.q98; 184Microsoft.AZ-204-KR.v2026-06-04.q237; 169Microsoft.PL-600-KR.v2026-06-04.q112; 227Microsoft.SC-300-KR.v2026-06-03.q151; 197Microsoft.DP-600-KR.v2026-06-03.q70