Databricks-Certified-Data-Engineer-Professional 문제 91

데이터 엔지니어는 광고 노출(광고가 표시된 시점) 스트림과 사용자의 광고 클릭 스트림을 결합하여 노출이 수익 창출 클릭으로 이어진 시점을 상관 분석하려고 합니다.
아래 코드에서 Impressions는 워터마크("event_time", "10분")가 포함된 스트리밍 DataFrame입니다.

데이터 엔지니어는 쿼리 속도가 현저히 느려진 것을 발견했습니다.
어떤 해결책이 성능을 향상시킬까요?

Databricks-Certified-Data-Engineer-Professional 문제 92

데이터 엔지니어가 databricks.yml 파일에 여러 대상을 설정하여 Databricks Asset Bundle을 구성하고 프로덕션 워크스페이스에 배포했습니다. 이제 배포를 검증하기 위해 프로덕션 대상 컨텍스트 내에서 my_project_job이라는 이름의 작업을 실행해야 합니다.
작업이 이미 배포되었다고 가정할 때, 대상별 구성이 유지되도록 하면서 작업 실행을 시작해야 합니다. 어떤 명령어를 사용해야 작업 실행이 시작될까요?

Databricks-Certified-Data-Engineer-Professional 문제 93

Spark에 데이터를 입력할 때 Spark 파티션 크기에 직접적인 영향을 미치는 구성 매개변수는 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 94

데이터 엔지니어링 팀은 매일 밤 일괄 업데이트를 통해 집계 통계 테이블을 관리합니다. 이 테이블에는 전날 총 매출액과 함께 지난 7일간, 연간 누계, 분기 누계 등 다양한 기간의 총계 및 평균 매출액이 포함됩니다. 이 테이블의 이름은 store_saies_summary이며 스키마는 다음과 같습니다.

daily_store_sales 테이블에는 store_sales_summary를 업데이트하는 데 필요한 모든 정보가 포함되어 있습니다.
이 테이블의 스키마는 다음과 같습니다.
store_id INT, sales_date DATE, total_sales FLOAT
daily_store_sales 테이블이 Type 1 테이블로 구현되어 있고, total_sales 열이 수동 데이터 검토 후 조정될 수 있는 경우, store_sales_summary 테이블에 정확한 보고서를 생성하는 가장 안전한 방법은 무엇일까요?

Databricks-Certified-Data-Engineer-Professional 문제 95

데이터 엔지니어는 Unity Catalog에서 관리하는 테이블의 민감한 열에 대해 열 마스킹을 구현해야 합니다. 마스킹 로직은 별도의 테이블(group_access)에 정의된 특정 그룹에 사용자가 속하는지 여부를 동적으로 확인해야 합니다. 이 테이블은 그룹을 허용된 부서와 매핑합니다. 엔지니어는 이 요구 사항을 효율적으로 적용하기 위해 어떤 접근 방식을 사용해야 할까요?