Professional-Data-Engineer 문제 1

BigQuery의 정적 참조 데이터로 Cloud Pub/Sub의 데이터를 보강하기 위해 Apache Beam 파이프라인을 설계하고 있습니다. 참조 데이터는 단일 작업자의 메모리에 들어갈 만큼 작습니다. 파이프라인은 분석을 위해 BigQuery에 보강된 결과를 작성해야 합니다. 이 파이프라인은 어떤 작업 유형과 변환을 사용해야 합니까?

Professional-Data-Engineer 문제 2

귀하의 조직에서는 IT 서비스를 현대화하고 Google Cloud로 마이그레이션하고 있습니다. Cloud Storage 및 BigQuery에 저장될 데이터를 정리해야 합니다. 영업, 제품 디자인, 마케팅 부서 간에 데이터를 공유하려면 데이터 메시 접근 방식을 활성화해야 합니다. 어떻게 해야 합니까?

Professional-Data-Engineer 문제 3

귀하의 회사는 Google Cloud Dataflow에서 학습 알고리즘을 위한 데이터 사전 처리를 수행하고 있습니다. 이 단계에서 수많은 데이터 로그가 생성되고 있으며 팀에서는 이를 분석하려고 합니다. 캠페인의 동적 특성으로 인해 데이터는 매시간 기하급수적으로 증가하고 있습니다.
데이터 과학자는 로그의 새로운 주요 기능에 대한 데이터를 읽기 위해 다음 코드를 작성했습니다.
BigQueryIO.읽기
.named("ReadLogData")
.from("clouddataflow-readonly:samples.log_data")
이 데이터 읽기 성능을 향상시키고 싶습니다. 당신은 무엇을 해야 합니까?

Professional-Data-Engineer 문제 4

회사의 사업주가 은행 거래 데이터베이스를 제공했습니다. 각 행에는
사용자 ID, 거래 유형, 거래 위치, 거래 금액입니다. 그들은 당신에게 무엇을 조사해달라고 요청합니다
머신러닝 유형을 데이터에 적용할 수 있습니다. 어떤 세 가지 머신러닝 애플리케이션을 사용할 수 있나요?
사용? (3개를 선택하세요.)

Professional-Data-Engineer 문제 5

Pll(개인 식별 정보) 데이터가 포함될 수 있는 파일을 Cloud Storage로 스트리밍하고 최종적으로는 BigQuery로 스트리밍하는 청록색 예측 엔진을 구축하고 있습니다. 민감한 데이터가 마스킹되더라도 참조 무결성은 유지되기를 원합니다. 이메일은 종종 조인 키로 사용됩니다. 권한이 없는 개인이 Pll 데이터에 액세스하지 못하도록 하려면 Cloud DLP API(Data Loss Prevention API)를 어떻게 사용해야 합니까?