Databricks-Certified-Data-Engineer-Professional 문제 81

데이터 과학 팀은 MLflow를 사용하여 프로덕션 모델을 생성하고 로그에 기록했습니다. 다음 코드는 프로덕션 모델을 올바르게 가져와 적용하여 "customer_id LONG, predictions DOUBLE, date DATE" 스키마를 가진 preds라는 새 DataFrame으로 예측 결과를 출력합니다.

데이터 과학 팀은 예측 결과를 Delta Lake 테이블에 저장하고, 시간 경과에 따른 모든 예측 결과를 비교할 수 있기를 원합니다. 고객 이탈 예측은 하루에 최대 한 번만 수행됩니다.
어떤 코드 블록이 잠재적인 컴퓨팅 비용을 최소화하면서 이 작업을 수행합니까?

Databricks-Certified-Data-Engineer-Professional 문제 82

데이터 엔지니어 팀은 새로운 데이터 파이프라인으로 마이그레이션을 시작하기 전에 개발, 테스트 및 프로덕션 환경을 구성하고 있습니다. 팀은 코드 실행 결과로 생성되는 코드와 데이터 모두에 대한 광범위한 테스트가 필요하며, 가능한 한 실제 운영 환경과 유사한 데이터를 사용하여 개발 및 테스트를 진행하고자 합니다.
신입 데이터 엔지니어가 프로덕션 데이터를 개발 테스트 환경에 마운트하여 프로덕션 전 코드가 프로덕션 데이터를 대상으로 실행될 수 있도록 하자고 제안했습니다. 개발 환경에서는 모든 사용자가 관리자 권한을 가지고 있으므로, 해당 엔지니어는 팀을 위해 권한을 설정하고 데이터를 마운트하는 작업을 직접 수행하겠다고 했습니다.
다음 중 이 상황에 대한 최적의 방안을 나타내는 진술은 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 83

프로덕션 클러스터는 3개의 실행기 노드를 가지며 드라이버와 실행기에 동일한 가상 머신 유형을 사용합니다.
이 클러스터의 Ganglia 메트릭을 평가할 때, 드라이버에서 실행되는 코드로 인해 발생하는 병목 현상을 나타내는 지표는 무엇일까요?

Databricks-Certified-Data-Engineer-Professional 문제 84

한 회사가 Databricks의 기존 작업에서 Auto Loader를 사용하여 외부 소스에서 반정형 JSON 파일을 처리합니다. 간혹 중요한 필드가 null이거나, 데이터 유형이 잘못되었거나, 예상치 못한 중첩 스키마 변형이 있는 레코드가 도착합니다. 엔지니어는 형식이 잘못되었거나 규격을 준수하지 않는 레코드가 오류 없이 삭제되지 않고 별도의 격리 테이블에 저장되도록 해야 합니다. 파이프라인은 정상적인 레코드를 Bronze 레이어로 계속 처리하여 작업이 실패하지 않도록 해야 하며, 배치 및 스트리밍 데이터 수집을 모두 지원해야 합니다.
데이터 엔지니어는 불량 레코드를 자동으로 격리 델타 테이블로 보내는 동시에 정상 레코드는 추가 처리를 위해 브론즈 레이어로 수집하는 견고한 데이터 수집 패턴을 구축해야 합니다.
이 데이터 수집 아키텍처에서 격리 메커니즘을 구현하는 접근 방식은 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 85

상위 시스템에서 변경 데이터 캡처(CDC) 로그가 생성되어 클라우드 객체 스토리지 디렉터리에 기록됩니다. 로그의 각 레코드는 변경 유형(삽입, 업데이트 또는 삭제)과 변경 후 각 필드의 값을 나타냅니다. 소스 테이블에는 pk_id 필드로 식별되는 기본 키가 있습니다.
감사 목적으로 데이터 거버넌스 팀은 소스 시스템에서 유효했던 모든 값에 대한 전체 기록을 유지하고자 합니다. 분석 목적으로는 각 레코드의 가장 최근 값만 기록하면 됩니다. 이러한 레코드를 수집하는 Databricks 작업은 한 시간에 한 번 실행되지만, 각 레코드는 한 시간 동안 여러 번 변경될 수 있습니다.
어떤 솔루션이 이러한 요구 사항을 충족합니까?