GCP-DE 문제 6

아래와 같은 고객 데이터를 분석하기 위해 Google Dataflow SDK를 사용할 계획입니다. 프로젝트 요구 사항은 데이터 소스에서 "Passing Certification Exams Made Easy visit - https://www.2PassEasy.com"이라는 고객 이름만 추출하여 출력 PCollection에 저장하는 것입니다.
톰, 555 X번가, 팀, 553 Y번가, 샘, 111 Z번가
위의 데이터 처리 요구사항에 가장 적합한 연산은 무엇입니까?

GCP-DE 문제 7

귀사는 내부 IT 애플리케이션과 Google BigQuery를 통합하여 사용자가 애플리케이션 인터페이스에서 BigQuery를 쿼리할 수 있도록 하려고 합니다. 개별 사용자가 BigQuery에 인증할 필요도 없고, 데이터 세트에 대한 접근 권한도 부여하고 싶지 않습니다. IT 애플리케이션에서 BigQuery에 안전하게 접근하는 방법을 찾고 있습니다.
어떻게 해야 할까요?

GCP-DE 문제 8

당신은 지진 데이터를 분석하는 시스템을 설계합니다.
a. 귀사의 ETL(추출, 변환, 로드) 프로세스는 Apache Hadoop 클러스터에서 MapReduce 작업 시리즈로 실행됩니다. 일부 단계의 계산 비용이 많이 들기 때문에 데이터 세트를 처리하는 데 며칠이 걸립니다. 그런데 센서 보정 단계가 누락된 것을 발견했습니다. 향후 센서 보정을 체계적으로 수행하도록 ETL 프로세스를 어떻게 변경해야 할까요?

GCP-DE 문제 9

Apache Kafka를 기반으로 구축된 IoT 파이프라인을 운영하고 있으며, 이 파이프라인은 일반적으로 초당 약 5,000개의 메시지를 수신합니다. Google Cloud Platform을 사용하여 1시간 이동 평균 메시지 수가 초당 4,000개 미만으로 떨어지면 알림을 생성하려고 합니다. 어떻게 해야 할까요?

GCP-DE 문제 10

당신은 글로벌 해운 회사에서 근무하고 있습니다. 40TB 규모의 데이터를 사용하여 특정 지역에서 특정 날짜에 배송 지연을 유발할 가능성이 높은 선박을 예측하는 모델을 학습시키려고 합니다. 이 모델은 여러 소스에서 수집된 다양한 속성을 기반으로 합니다. 각 선박에서 위치 정보(GeoJSON 형식)를 포함한 원격 측정 데이터는 매시간 수집되어 데이터에 저장됩니다. 특정 지역에서 배송 지연을 유발할 가능성이 높은 선박의 수와 종류를 보여주는 대시보드를 구축하고자 합니다. 예측 및 지리 공간 처리 기능을 기본적으로 제공하는 스토리지 솔루션을 사용하고자 합니다. 어떤 스토리지 솔루션을 선택해야 할까요?