Professional-Data-Engineer 문제 116
AI 모델을 제공하기 위해 광고 데이터가 필요하고, 분석을 위한 과거 데이터인 롱테일 및 이상치 데이터 포인트를 식별해야 합니다. AI 모델에 데이터를 실행하기 전에 거의 릴 시간 동안 데이터를 정리해야 합니다. 무엇을 해야 할까요?
Professional-Data-Engineer 문제 117
귀사의 데이터 플랫폼은 업스트림 소스에서 예약 및 사용자 프로필 데이터의 CSV 파일 덤프를 Cloud Storage로 수집합니다. 데이터 분석가 팀은 두 데이터 세트에서 사용 가능한 이메일 필드에 이러한 데이터 세트를 조인하여 분석을 수행하려고 합니다. 그러나 개인 식별 정보(PII)는 분석가가 액세스할 수 없어야 합니다. 분석가를 위해 BigQuery에 로드하기 전에 두 데이터 세트의 이메일 필드를 식별 해제해야 합니다. 어떻게 해야 합니까?
Professional-Data-Engineer 문제 118
데이터 처리 파이프라인을 설계하고 있습니다. 파이프라인은 부하가 증가함에 따라 자동으로 확장할 수 있어야 합니다. 메시지는 최소한 한 번은 처리되어야 하며 1시간의 윈도우 내에서 정렬되어야 합니다. 솔루션을 어떻게 설계해야 합니까?
Professional-Data-Engineer 문제 119
귀사는 독점 시스템을 사용하여 6시간마다 클라우드의 데이터 수집 서비스로 재고 데이터를 전송합니다. 전송된 데이터에는 여러 필드의 페이로드와 전송 타임스탬프가 포함됩니다. 전송에 대한 우려가 있는 경우 시스템은 데이터를 다시 전송합니다. 가장 효율적으로 데이터를 중복 제거하려면 어떻게 해야 합니까?
Professional-Data-Engineer 문제 120
Dataproc 클러스터에는 많은 구성 파일이 포함되어 있습니다. 이러한 파일을 업데이트하려면 --properties 옵션을 사용해야 합니다. 옵션의 형식은 file_prefix:property=_____입니다.
