Databricks-Certified-Data-Engineer-Professional 문제 86

데이터 엔지니어가 Databricks에 있는 대규모 분할 소매 데이터 세트를 분석하고 있습니다. 각 행은 영업 사원이 수행한 판매를 나타냅니다. 이 데이터 세트는 다음과 같은 스키마를 가진 수백만 개의 레코드로 구성되어 있습니다.
sales_df: [salesperson_id: string, region: string, sale_amount: double, sale_date: date] 데이터 엔지니어는 각 지역 내 영업 사원들의 누적 총 판매액을 기준으로 순위를 매기는 데이터프레임을 생성해야 합니다. 가장 높은 판매액을 기록한 영업 사원을 1위로 지정합니다. 여러 영업 사원의 누적 판매액이 같을 경우, 동일한 순위를 부여해야 합니다.
데이터 엔지니어는 PySpark의 윈도우 함수와 dense_rank() 함수를 사용하여 이 로직을 구현하려고 합니다.
어떤 코드 조각이 이러한 순위 매기기를 수행할까요?

Databricks-Certified-Data-Engineer-Professional 문제 87

데이터 엔지니어가 늦게 도착하는 중복 레코드를 처리할 가능성이 있는 파이프라인을 구성하고 있습니다.
배치 내에서 레코드 중복 제거 외에도, 다음 중 어떤 접근 방식을 사용하면 데이터 엔지니어가 델타 테이블에 데이터를 삽입할 때 이전에 처리된 레코드와 중복된 데이터를 제거할 수 있습니까?

Databricks-Certified-Data-Engineer-Professional 문제 88

데이터 엔지니어링 팀은 자동화된 ETL 프로세스의 일부로 테이블에 태깅 시스템을 구현해야 하며, Unity Catalog의 테이블에 프로그래밍 방식으로 태그를 적용해야 합니다.
테이블에 태그를 프로그래밍 방식으로 추가하는 SQL 명령은 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 89

비즈니스 보고 시스템에서는 대시보드 데이터가 매시간 업데이트되어야 합니다. 데이터 추출, 변환 및 로드를 담당하는 파이프라인의 총 처리 시간은 10분입니다.
정상적인 운영 조건을 가정할 때, 어떤 구성이 가장 낮은 비용으로 서비스 수준 계약 요구 사항을 충족할까요?

Databricks-Certified-Data-Engineer-Professional 문제 90

데이터 엔지니어가 빈번한 업데이트와 삭제가 발생하는 800GB 규모의 UC 관리 테이블에서 MERGE 작업을 최적화하고 있습니다. MERGE 성능을 향상시키기 위해 엔지니어가 우선적으로 수행해야 할 두 가지 조치는 무엇입니까? (두 가지를 선택하십시오.)