GCP-DE 문제 6
아래와 같은 고객 데이터를 분석하기 위해 Google Dataflow SDK를 사용할 계획입니다. 프로젝트 요구 사항은 데이터 소스에서 "Passing Certification Exams Made Easy visit - https://www.2PassEasy.com"이라는 고객 이름만 추출하여 출력 PCollection에 저장하는 것입니다.
톰, 555 X번가, 팀, 553 Y번가, 샘, 111 Z번가
위의 데이터 처리 요구사항에 가장 적합한 연산은 무엇입니까?
톰, 555 X번가, 팀, 553 Y번가, 샘, 111 Z번가
위의 데이터 처리 요구사항에 가장 적합한 연산은 무엇입니까?
GCP-DE 문제 7
귀사는 내부 IT 애플리케이션과 Google BigQuery를 통합하여 사용자가 애플리케이션 인터페이스에서 BigQuery를 쿼리할 수 있도록 하려고 합니다. 개별 사용자가 BigQuery에 인증할 필요도 없고, 데이터 세트에 대한 접근 권한도 부여하고 싶지 않습니다. IT 애플리케이션에서 BigQuery에 안전하게 접근하는 방법을 찾고 있습니다.
어떻게 해야 할까요?
어떻게 해야 할까요?
GCP-DE 문제 8
당신은 지진 데이터를 분석하는 시스템을 설계합니다.
a. 귀사의 ETL(추출, 변환, 로드) 프로세스는 Apache Hadoop 클러스터에서 MapReduce 작업 시리즈로 실행됩니다. 일부 단계의 계산 비용이 많이 들기 때문에 데이터 세트를 처리하는 데 며칠이 걸립니다. 그런데 센서 보정 단계가 누락된 것을 발견했습니다. 향후 센서 보정을 체계적으로 수행하도록 ETL 프로세스를 어떻게 변경해야 할까요?
a. 귀사의 ETL(추출, 변환, 로드) 프로세스는 Apache Hadoop 클러스터에서 MapReduce 작업 시리즈로 실행됩니다. 일부 단계의 계산 비용이 많이 들기 때문에 데이터 세트를 처리하는 데 며칠이 걸립니다. 그런데 센서 보정 단계가 누락된 것을 발견했습니다. 향후 센서 보정을 체계적으로 수행하도록 ETL 프로세스를 어떻게 변경해야 할까요?
GCP-DE 문제 9
Apache Kafka를 기반으로 구축된 IoT 파이프라인을 운영하고 있으며, 이 파이프라인은 일반적으로 초당 약 5,000개의 메시지를 수신합니다. Google Cloud Platform을 사용하여 1시간 이동 평균 메시지 수가 초당 4,000개 미만으로 떨어지면 알림을 생성하려고 합니다. 어떻게 해야 할까요?
GCP-DE 문제 10
당신은 글로벌 해운 회사에서 근무하고 있습니다. 40TB 규모의 데이터를 사용하여 특정 지역에서 특정 날짜에 배송 지연을 유발할 가능성이 높은 선박을 예측하는 모델을 학습시키려고 합니다. 이 모델은 여러 소스에서 수집된 다양한 속성을 기반으로 합니다. 각 선박에서 위치 정보(GeoJSON 형식)를 포함한 원격 측정 데이터는 매시간 수집되어 데이터에 저장됩니다. 특정 지역에서 배송 지연을 유발할 가능성이 높은 선박의 수와 종류를 보여주는 대시보드를 구축하고자 합니다. 예측 및 지리 공간 처리 기능을 기본적으로 제공하는 스토리지 솔루션을 사용하고자 합니다. 어떤 스토리지 솔루션을 선택해야 할까요?
