Professional-Data-Engineer 문제 206

여러분은 3개 병원의 수백 명의 환자를 대상으로 시범 프로젝트로 환자 기록 데이터베이스를 설계했습니다.
귀하의 디자인은 모든 환자와 방문을 나타내는 단일 데이터베이스 테이블을 사용했고, 셀프 조인을 사용하여 보고서를 생성했습니다. 서버 리소스 사용률은 50%였습니다. 그 이후로 프로젝트 범위가 확장되었습니다.
데이터베이스는 이제 100배 더 많은 환자 기록을 저장해야 합니다. 너무 오래 걸리거나 컴퓨팅 리소스가 부족하여 오류가 발생하기 때문에 더 이상 보고서를 실행할 수 없습니다. 데이터베이스 설계를 어떻게 조정해야 합니까?

Professional-Data-Engineer 문제 207

스트리밍 Cloud Dataflow 파이프라인을 운영하고 있습니다. 엔지니어는 다른 윈도잉 알고리즘과 트리거링 전략이 있는 새로운 버전의 파이프라인을 보유하고 있습니다. 실행 중인 파이프라인을 새로운 버전으로 업데이트하려고 합니다. 업데이트 중에 데이터가 손실되지 않도록 하려고 합니다. 어떻게 해야 할까요?

Professional-Data-Engineer 문제 208

귀사는 엄격하게 규제되는 산업에 종사하고 있습니다. 귀사의 요구 사항 중 하나는 개별 사용자가 업무를 수행하는 데 필요한 최소한의 정보에만 액세스할 수 있도록 하는 것입니다. Google BigQuery로 이 요구 사항을 시행하려고 합니다.
어떤 세 가지 접근 방식을 취할 수 있나요? (세 가지를 선택하세요.)

Professional-Data-Engineer 문제 209

Google Cloud에서 IoT 데이터를 Cloud Pub/Sub에서 Cloud Dataflow를 거쳐 BigQuery로 스트리밍하기 위한 새로운 파이프라인을 만들고 있습니다. 데이터를 미리 보는 동안 약 2%의 데이터가 손상된 것으로 보입니다.
이 손상된 데이터를 필터링하려면 Cloud Dataflow 파이프라인을 수정해야 합니다. 어떻게 해야 합니까?

Professional-Data-Engineer 문제 210

의류 추천을 위한 모델을 구축하고 있습니다. 사용자의 패션 선호도는 시간이 지남에 따라 바뀔 가능성이 높으므로 새로운 데이터가 제공되면 모델로 다시 스트리밍하는 데이터 파이프라인을 구축합니다. 이 데이터를 사용하여 모델을 학습하려면 어떻게 해야 합니까?