Databricks-Certified-Data-Engineer-Professional 문제 41
한 회사가 여러 데이터 소스에 걸쳐 Lakehouse Federation을 구현하려고 하지만, 데이터 일관성과 모든 팀이 동일한 공식 버전의 데이터에 액세스하는 것을 보장하는 데 우려를 가지고 있습니다. Lakehouse Federation이 데이터 일관성을 유지하기 위해 적용되는 설명은 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 42
데이터 파이프라인은 구조화된 스트리밍 방식을 사용하여 Kafka에서 Delta Lake로 데이터를 수집합니다. 데이터는 Bronze 테이블에 저장되며, Kafka에서 생성된 타임스탬프, 키, 값이 포함됩니다. 파이프라인 배포 후 3개월이 지난 시점에서 데이터 엔지니어링 팀은 특정 시간대에 지연 현상이 발생하는 것을 발견했습니다.
선임 데이터 엔지니어가 Delta 테이블의 스키마와 데이터 수집 로직을 업데이트하여 Apache Spark에서 기록한 현재 타임스탬프와 Kafka 토픽 및 파티션 정보를 포함시켰습니다. 팀은 추가된 메타데이터 필드를 활용하여 일시적인 처리 지연 현상을 진단할 계획입니다.
이 문제를 진단하는 과정에서 팀은 어떤 제약에 직면하게 될까요?
선임 데이터 엔지니어가 Delta 테이블의 스키마와 데이터 수집 로직을 업데이트하여 Apache Spark에서 기록한 현재 타임스탬프와 Kafka 토픽 및 파티션 정보를 포함시켰습니다. 팀은 추가된 메타데이터 필드를 활용하여 일시적인 처리 지연 현상을 진단할 계획입니다.
이 문제를 진단하는 과정에서 팀은 어떤 제약에 직면하게 될까요?
Databricks-Certified-Data-Engineer-Professional 문제 43
데이터 엔지니어가 Delta Lake에서 배치 데이터와 스트리밍 데이터를 모두 처리해야 하는 추가 전용 파이프라인을 설계하고 있습니다. 팀은 스트리밍 구성 요소가 이미 처리된 데이터를 효율적으로 추적할 수 있도록 해야 합니다. 이를 위해 어떤 설정을 해야 할까요?
Databricks-Certified-Data-Engineer-Professional 문제 44
뷰 업데이트는 고객 테이블에 삽입 또는 업데이트될 모든 새로 수집된 데이터의 증분 배치를 나타냅니다.
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address <> customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers.current = true AND customers.address <> staged_updates.address THEN UPDATE SET current = false, end_date = staged_updates.effective_date WHEN NOT MATCHED THEN INSERT (customer_id, address, current, effective_date, end_date) VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?
이러한 기록을 처리하는 데에는 다음과 같은 논리가 사용됩니다.
고객과 합병하세요
사용 (
SELECT updates.customer_id as merge_ey, updates .*
업데이트에서
유니온 올
merge_key로 NULL을 선택하고 업데이트를 실행합니다.
업데이트에서 참여하세요
ON updates.customer_id = customers.customer_id
WHERE customers.current = true AND updates.address <> customers.address ) staged_updates ON customers.customer_id = mergekey WHEN MATCHED AND customers.current = true AND customers.address <> staged_updates.address THEN UPDATE SET current = false, end_date = staged_updates.effective_date WHEN NOT MATCHED THEN INSERT (customer_id, address, current, effective_date, end_date) VALUES (staged_updates.customer_id, staged_updates.address, true, staged_updates.effective_date, null) 이 구현을 설명하는 문장은 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 45
상위 소스는 Parquet 데이터를 시간 단위로 현재 날짜로 명명된 디렉터리에 배치 형식으로 저장합니다. 야간 배치 작업은 날짜 변수에 지정된 날짜의 전날 데이터를 모두 가져오기 위해 다음 코드를 실행합니다.

customer_id와 order_id 필드가 각 주문을 고유하게 식별하는 복합 키 역할을 한다고 가정합니다.
상위 시스템에서 단일 주문에 대해 몇 시간 간격으로 중복 항목이 생성되는 경우가 있는 것으로 알려져 있다면, 다음 중 어떤 설명이 맞습니까?

customer_id와 order_id 필드가 각 주문을 고유하게 식별하는 복합 키 역할을 한다고 가정합니다.
상위 시스템에서 단일 주문에 대해 몇 시간 간격으로 중복 항목이 생성되는 경우가 있는 것으로 알려져 있다면, 다음 중 어떤 설명이 맞습니까?
