Professional-Data-Engineer 문제 46

회사에서 Google Cloud Dataflow의 학습 알고리즘에 대한 데이터 사전 처리를 수행하고 있습니다.
이 단계에서 수많은 데이터 로그가 생성되고 있으며 팀은 이를 분석하려고 합니다.
캠페인의 동적 특성으로 인해 데이터는 매시간 기하급수적으로 증가하고 있습니다. 데이터 과학자는 로그의 새로운 주요 기능에 대한 데이터를 읽기 위해 다음 코드를 작성했습니다.
BigQueryIO.Read
.named("로그 데이터 읽기")
.from("clouddataflow-readonly:samples.log_data")
이 데이터 읽기의 성능을 개선하려고 합니다. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 47

당신은 이미지 인식 영역에서 틈새 제품을 연구하고 있습니다. 귀하의 팀은 귀하의 팀이 구현한 맞춤형 C++ TensorFlow 작업이 지배하는 모델을 개발했습니다. 이러한 연산은 기본 훈련 루프 내에서 사용되며 부피가 큰 행렬 곱셈을 수행합니다. 현재 모델을 학습시키는 데 며칠이 걸립니다. GCP에서 가속기를 사용하여 이 시간을 크게 줄이고 비용을 낮게 유지하려고 합니다. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 48

현재 온프레미스 Apache Hadoop 배포를 클라우드로 마이그레이션할 계획입니다. 장기 실행 배치 작업에 대해 가능한 한 내결함성과 비용 효율적인 배포를 보장해야 합니다. 관리형 서비스를 사용하려고 합니다. 당신은 무엇을해야합니까?

Professional-Data-Engineer 문제 49

다음 조건을 충족하도록 클라우드 네이티브 기록 데이터 처리 시스템을 설계하고 있습니다.
분석 중인 데이터는 CSV, Avro 및 PDF 형식이며 다중 분석을 통해 액세스됩니다.

Cloud Dataproc, BigQuery, Compute Engine을 포함한 도구
스트리밍 데이터 파이프라인은 매일 새로운 데이터를 저장합니다.

성능은 솔루션의 요소가 아닙니다.

솔루션 설계는 가용성을 극대화해야 합니다.

이 솔루션을 위한 데이터 스토리지는 어떻게 설계해야 합니까?

Professional-Data-Engineer 문제 50

실시간 애플리케이션에 Bigtable을 사용하고 있으며 읽기와 쓰기가 혼합된 로드가 많습니다. 최근에 추가 사용 사례를 확인했으며 전체 데이터베이스에서 특정 통계를 계산하기 위해 매시간 분석 작업을 수행해야 합니다. 프로덕션 애플리케이션과 분석 워크로드의 안정성을 모두 보장해야 합니다.
당신은 무엇을해야합니까?