Databricks-Certified-Data-Engineer-Professional 문제 91
데이터 엔지니어는 광고 노출(광고가 표시된 시점) 스트림과 사용자의 광고 클릭 스트림을 결합하여 노출이 수익 창출 클릭으로 이어진 시점을 상관 분석하려고 합니다.
아래 코드에서 Impressions는 워터마크("event_time", "10분")가 포함된 스트리밍 DataFrame입니다.

데이터 엔지니어는 쿼리 속도가 현저히 느려진 것을 발견했습니다.
어떤 해결책이 성능을 향상시킬까요?
아래 코드에서 Impressions는 워터마크("event_time", "10분")가 포함된 스트리밍 DataFrame입니다.

데이터 엔지니어는 쿼리 속도가 현저히 느려진 것을 발견했습니다.
어떤 해결책이 성능을 향상시킬까요?
Databricks-Certified-Data-Engineer-Professional 문제 92
데이터 엔지니어가 databricks.yml 파일에 여러 대상을 설정하여 Databricks Asset Bundle을 구성하고 프로덕션 워크스페이스에 배포했습니다. 이제 배포를 검증하기 위해 프로덕션 대상 컨텍스트 내에서 my_project_job이라는 이름의 작업을 실행해야 합니다.
작업이 이미 배포되었다고 가정할 때, 대상별 구성이 유지되도록 하면서 작업 실행을 시작해야 합니다. 어떤 명령어를 사용해야 작업 실행이 시작될까요?
작업이 이미 배포되었다고 가정할 때, 대상별 구성이 유지되도록 하면서 작업 실행을 시작해야 합니다. 어떤 명령어를 사용해야 작업 실행이 시작될까요?
Databricks-Certified-Data-Engineer-Professional 문제 93
Spark에 데이터를 입력할 때 Spark 파티션 크기에 직접적인 영향을 미치는 구성 매개변수는 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 94
데이터 엔지니어링 팀은 매일 밤 일괄 업데이트를 통해 집계 통계 테이블을 관리합니다. 이 테이블에는 전날 총 매출액과 함께 지난 7일간, 연간 누계, 분기 누계 등 다양한 기간의 총계 및 평균 매출액이 포함됩니다. 이 테이블의 이름은 store_saies_summary이며 스키마는 다음과 같습니다.

daily_store_sales 테이블에는 store_sales_summary를 업데이트하는 데 필요한 모든 정보가 포함되어 있습니다.
이 테이블의 스키마는 다음과 같습니다.
store_id INT, sales_date DATE, total_sales FLOAT
daily_store_sales 테이블이 Type 1 테이블로 구현되어 있고, total_sales 열이 수동 데이터 검토 후 조정될 수 있는 경우, store_sales_summary 테이블에 정확한 보고서를 생성하는 가장 안전한 방법은 무엇일까요?

daily_store_sales 테이블에는 store_sales_summary를 업데이트하는 데 필요한 모든 정보가 포함되어 있습니다.
이 테이블의 스키마는 다음과 같습니다.
store_id INT, sales_date DATE, total_sales FLOAT
daily_store_sales 테이블이 Type 1 테이블로 구현되어 있고, total_sales 열이 수동 데이터 검토 후 조정될 수 있는 경우, store_sales_summary 테이블에 정확한 보고서를 생성하는 가장 안전한 방법은 무엇일까요?
Databricks-Certified-Data-Engineer-Professional 문제 95
데이터 엔지니어는 Unity Catalog에서 관리하는 테이블의 민감한 열에 대해 열 마스킹을 구현해야 합니다. 마스킹 로직은 별도의 테이블(group_access)에 정의된 특정 그룹에 사용자가 속하는지 여부를 동적으로 확인해야 합니다. 이 테이블은 그룹을 허용된 부서와 매핑합니다. 엔지니어는 이 요구 사항을 효율적으로 적용하기 위해 어떤 접근 방식을 사용해야 할까요?
