Professional-Data-Engineer 문제 136
BigQuery, Cloud Dataflow, Cloud Dataproc에서 실행되는 데이터 파이프라인이 있습니다. 상태 검사를 수행하고 동작을 모니터링한 다음 파이프라인이 실패하면 파이프라인을 관리하는 팀에 알려야 합니다. 또한 여러 프로젝트에서 작업할 수 있어야 합니다. 플랫폼의 관리형 제품이나 기능을 사용하는 것이 좋습니다. 어떻게 해야 할까요?
Professional-Data-Engineer 문제 137
범주형 특성에서 범주 간 관계에 대해 신경망이 학습하도록 하려면 어떻게 해야 할까요?
Professional-Data-Engineer 문제 138
귀사의 온프레미스 Apache Hadoop 서버는 수명이 다 되어 가고 있으며, IT 부서는 클러스터를 Google Cloud Dataproc으로 마이그레이션하기로 결정했습니다. 클러스터를 동일한 방식으로 마이그레이션하려면 노드당 50TB의 Google Persistent Disk가 필요합니다. CIO는 그렇게 많은 블록 스토리지를 사용하는 데 드는 비용에 대해 우려하고 있습니다.
마이그레이션의 저장 비용을 최소화하고 싶습니다. 어떻게 해야 할까요?
마이그레이션의 저장 비용을 최소화하고 싶습니다. 어떻게 해야 할까요?
Professional-Data-Engineer 문제 139
Pub/Sub 토픽에서 읽는 Apache Beam 처리 파이프라인을 설계했습니다. 토픽의 메시지 보존 기간은 1일이며 Cloud Storage 버킷에 씁니다. RPO가 15분인 지역 중단 시 데이터 손실을 방지하기 위해 버킷 위치와 처리 전략을 선택해야 합니다.
어떻게 해야 할까요?
어떻게 해야 할까요?
Professional-Data-Engineer 문제 140
수백만 개의 판매 데이터 행이 포함된 테이블이 있으며, 날짜별로 분할되어 있습니다. 다양한 애플리케이션과 사용자가 이 데이터를 1분에 여러 번 쿼리합니다. 이 쿼리는 avg.max. 및 sum을 사용하여 값을 집계해야 하며, 다른 테이블과 조인할 필요가 없습니다. 필요한 집계는 지난 1년 동안의 데이터에 대해서만 계산되지만, 기본 테이블에 전체 과거 데이터를 유지해야 합니다. 쿼리 결과에 항상 테이블의 최신 데이터가 포함되도록 하면서 계산 비용, 유지 관리 오버헤드 및 기간을 줄이려고 합니다. 어떻게 해야 할까요?
