Professional-Data-Engineer 문제 101

오픈소스 기반 도구와 Google Kubernetes Engine(GKE)을 사용하여 워크플로 파이프라인 예약을 구현하고 있습니다. Google 관리형 서비스를 사용하여 작업을 단순화하고 자동화하려고 합니다. 또한 공유 VPC 네트워킹 고려 사항을 수용하려고 합니다. 당신은 무엇을 해야 합니까?

Professional-Data-Engineer 문제 102

Dataproc 클러스터에는 많은 구성 파일이 포함되어 있습니다. 이러한 파일을 업데이트하려면 --properties 옵션을 사용해야 합니다. 옵션의 형식은 file_prefix:property=_____입니다.

Professional-Data-Engineer 문제 103

귀하의 팀은 이진 분류 문제를 연구하고 있습니다. 기본 매개변수를 사용하여 SVM(서포트 벡터 머신) 분류기를 훈련했으며 검증 세트에서 AUC(곡선 아래 영역) 0.87을 받았습니다.
모델의 AUC를 높이고 싶습니다. 당신은 무엇을 해야 합니까?

Professional-Data-Engineer 문제 104

스트리밍 Cloud Dataflow 파이프라인을 운영 중입니다. 엔지니어는 다른 창 알고리즘과 트리거 전략을 사용하는 새 버전의 파이프라인을 갖게 되었습니다. 실행 중인 파이프라인을 새 버전으로 업데이트하려고 합니다. 업데이트 중에 데이터가 손실되지 않도록 하려고 합니다. 당신은 무엇을 해야 합니까?

Professional-Data-Engineer 문제 105

쉼표로 구분된 값(CSV) 파일의 데이터를 Google로 로드하는 데 며칠이 걸렸습니다.
BigQuery 테이블 CLICK_STREAM. DT 열은 클릭 이벤트의 에포크 시간을 저장합니다. 편의상,
모든 필드가 STRING 유형으로 처리되는 간단한 스키마를 선택했습니다. 이제 계산하고 싶습니다.
귀하의 사이트를 방문하는 사용자의 웹 세션 시간이며 해당 데이터 유형을 다음으로 변경하려고 합니다.
타임스탬프. 향후 쿼리를 계산적으로 수행하지 않고 마이그레이션 노력을 최소화하려는 경우
값비싼. 당신은 무엇을 해야 합니까?