Databricks-Certified-Data-Engineer-Professional 문제 66
시설 모니터링 팀이 Delta 테이블의 device_readings 데이터를 기반으로 거의 실시간에 가까운 PowerBI 대시보드를 구축하고 있습니다.
열:
device_id (문자열, 고유 센서 ID)
event_ts(TIMESTAMP, 수집 타임스탬프 UTC)
temperature_c (DOUBLE, °C 단위 온도)
요구 사항:
각 센서에 대해 겹치지 않는 5분 간격으로 한 행씩 생성합니다.
간격은 2분 간격으로 표시됩니다(예: 00:02-00:07, 00:07-00:12, ...).
각 행에는 구간 시작, 구간 종료 및 평균값이 포함되어야 합니다.
해당 조각의 온도.
하위 BI 도구(예: Power BI)는 간격 타임스탬프를 사용해야 합니다.
시계열 막대 그래프를 그리기 위해.
열:
device_id (문자열, 고유 센서 ID)
event_ts(TIMESTAMP, 수집 타임스탬프 UTC)
temperature_c (DOUBLE, °C 단위 온도)
요구 사항:
각 센서에 대해 겹치지 않는 5분 간격으로 한 행씩 생성합니다.
간격은 2분 간격으로 표시됩니다(예: 00:02-00:07, 00:07-00:12, ...).
각 행에는 구간 시작, 구간 종료 및 평균값이 포함되어야 합니다.
해당 조각의 온도.
하위 BI 도구(예: Power BI)는 간격 타임스탬프를 사용해야 합니다.
시계열 막대 그래프를 그리기 위해.
Databricks-Certified-Data-Engineer-Professional 문제 67
Databricks 쿼리 프로파일러에서 쿼리 실행을 검토하던 데이터 엔지니어는 '상위 연산자' 패널에서 정렬 연산자의 소요 시간 및 메모리 사용량이 높게 나타나는 것을 확인했습니다. 또한 Spark UI에서도 데이터 스필링이 빈번하게 발생한다는 보고가 있습니다. 데이터 엔지니어는 이 문제를 어떻게 해결해야 할까요?
Databricks-Certified-Data-Engineer-Professional 문제 68
새로운 데이터 엔지니어가 Kafka 소스를 Delta Lake에 기록하는 애플리케이션에서 중요한 필드 하나가 누락된 것을 발견했습니다. 해당 필드는 Kafka 소스에 분명히 존재했음에도 불구하고 말입니다.
해당 필드는 종속적인 장기 저장소에 기록된 데이터에서도 누락되었습니다. Kafka 서비스의 데이터 보존 기간은 7일입니다. 해당 파이프라인은 3개월 동안 운영되었습니다.
이는 델타 레이크가 향후 이와 같은 데이터 손실을 방지하는 데 어떻게 도움이 될 수 있는지를 설명하는 내용입니다.
해당 필드는 종속적인 장기 저장소에 기록된 데이터에서도 누락되었습니다. Kafka 서비스의 데이터 보존 기간은 7일입니다. 해당 파이프라인은 3개월 동안 운영되었습니다.
이는 델타 레이크가 향후 이와 같은 데이터 손실을 방지하는 데 어떻게 도움이 될 수 있는지를 설명하는 내용입니다.
Databricks-Certified-Data-Engineer-Professional 문제 69
스트리밍 비디오 분석 팀은 Unity Catalog에서 관리하는 Delta 테이블인 video_events에 매일 수십억 개의 이벤트를 수집합니다. 분석가들은 user_id, campaign_id, region과 같은 열을 대상으로 임시 조회 쿼리를 실행합니다. 팀은 수동으로 OPTIMIZE video_events ZORDER BY (user_id, campaign_id, region) 쿼리를 실행하지만, 최근 데이터에서 여전히 성능이 저조하고 이러한 운영 오버헤드가 부담스럽습니다. 팀은 쿼리 패턴이 변화함에 따라 자주 사용되는 열들을 항상 같은 위치에 유지할 수 있는 자동화된 방법을 원합니다. video_events 테이블에서 Delta의 어떤 기능을 활용하는 것이 좋을까요?
Databricks-Certified-Data-Engineer-Professional 문제 70
데이터 엔지니어가 이메일 주소가 포함된 열을 마스킹하고 있습니다. 목표는 모든 행에 대해 동일한 길이의 출력 문자열을 생성하되, 각 이메일 값에 따라 다른 출력 문자열을 생성하는 것입니다.
이를 위해 어떤 SQL 함수를 사용해야 할까요?
이를 위해 어떤 SQL 함수를 사용해야 할까요?
