무료 온라인 액세스 Databricks.Databricks-Certified-Data-Engineer-Professional.v2026-06-15.q112 모의 시험 (Page 18)

Databricks-Certified-Data-Engineer-Professional 문제 81

데이터 과학 팀은 MLflow를 사용하여 프로덕션 모델을 생성하고 로그에 기록했습니다. 다음 코드는 프로덕션 모델을 올바르게 가져와 적용하여 "customer_id LONG, predictions DOUBLE, date DATE" 스키마를 가진 preds라는 새 DataFrame으로 예측 결과를 출력합니다.

데이터 과학 팀은 예측 결과를 Delta Lake 테이블에 저장하고, 시간 경과에 따른 모든 예측 결과를 비교할 수 있기를 원합니다. 고객 이탈 예측은 하루에 최대 한 번만 수행됩니다.
어떤 코드 블록이 잠재적인 컴퓨팅 비용을 최소화하면서 이 작업을 수행합니까?

B. preds.write.mode("append").saveAsTable("churn_preds")
【그리고】:

C. preds.write.format("delta").save("/preds/churn_preds")

Databricks-Certified-Data-Engineer-Professional 문제 82

데이터 엔지니어 팀은 새로운 데이터 파이프라인으로 마이그레이션을 시작하기 전에 개발, 테스트 및 프로덕션 환경을 구성하고 있습니다. 팀은 코드 실행 결과로 생성되는 코드와 데이터 모두에 대한 광범위한 테스트가 필요하며, 가능한 한 실제 운영 환경과 유사한 데이터를 사용하여 개발 및 테스트를 진행하고자 합니다.
신입 데이터 엔지니어가 프로덕션 데이터를 개발 테스트 환경에 마운트하여 프로덕션 전 코드가 프로덕션 데이터를 대상으로 실행될 수 있도록 하자고 제안했습니다. 개발 환경에서는 모든 사용자가 관리자 권한을 가지고 있으므로, 해당 엔지니어는 팀을 위해 권한을 설정하고 데이터를 마운트하는 작업을 직접 수행하겠다고 했습니다.
다음 중 이 상황에 대한 최적의 방안을 나타내는 진술은 무엇입니까?

A. 프로덕션 데이터에 대한 접근은 항상 패스스루 자격 증명을 사용하여 검증되므로 모든 Databricks 개발 환경에 데이터를 마운트하는 것이 안전합니다.

B. 모든 개발, 테스트 및 프로덕션 코드와 데이터는 단일 통합 작업 공간에 존재해야 합니다. 테스트와 개발을 위한 별도의 환경을 구축하면 위험을 더욱 줄일 수 있습니다.

C. 대화형 코드가 실행되는 환경에서는 프로덕션 데이터에 대해 읽기 권한만으로 접근할 수 있어야 하며, 각 환경별로 격리된 데이터베이스를 생성하면 위험을 더욱 줄일 수 있습니다.

D. Delta Lake는 모든 데이터를 버전 관리하고 타임 트래블을 지원하기 때문에 사용자 오류나 악의적인 공격자가 프로덕션 데이터를 영구적으로 삭제하는 것이 불가능합니다. 따라서 프로덕션 데이터를 어디에든 마운트해도 일반적으로 안전합니다.

Databricks-Certified-Data-Engineer-Professional 문제 83

프로덕션 클러스터는 3개의 실행기 노드를 가지며 드라이버와 실행기에 동일한 가상 머신 유형을 사용합니다.
이 클러스터의 Ganglia 메트릭을 평가할 때, 드라이버에서 실행되는 코드로 인해 발생하는 병목 현상을 나타내는 지표는 무엇일까요?

A. 5분 평균 부하량이 일정하게 유지됩니다/평탄하게 유지됩니다

B. 수신 바이트는 초당 8천만 바이트를 초과하지 않습니다.

C. 총 디스크 공간은 일정하게 유지됩니다.

D. 네트워크 I/O는 절대 급증하지 않습니다.

E. 전체 클러스터 CPU 사용률은 약 25%입니다.

Databricks-Certified-Data-Engineer-Professional 문제 84

한 회사가 Databricks의 기존 작업에서 Auto Loader를 사용하여 외부 소스에서 반정형 JSON 파일을 처리합니다. 간혹 중요한 필드가 null이거나, 데이터 유형이 잘못되었거나, 예상치 못한 중첩 스키마 변형이 있는 레코드가 도착합니다. 엔지니어는 형식이 잘못되었거나 규격을 준수하지 않는 레코드가 오류 없이 삭제되지 않고 별도의 격리 테이블에 저장되도록 해야 합니다. 파이프라인은 정상적인 레코드를 Bronze 레이어로 계속 처리하여 작업이 실패하지 않도록 해야 하며, 배치 및 스트리밍 데이터 수집을 모두 지원해야 합니다.
데이터 엔지니어는 불량 레코드를 자동으로 격리 델타 테이블로 보내는 동시에 정상 레코드는 추가 처리를 위해 브론즈 레이어로 수집하는 견고한 데이터 수집 패턴을 구축해야 합니다.
이 데이터 수집 아키텍처에서 격리 메커니즘을 구현하는 접근 방식은 무엇입니까?

A. inferSchema=True로 노트북 작업을 생성하고, .foreachBatch()를 사용하여 스트리밍 쿼리를 작성하고, try/except를 사용하여 예외를 처리하여 실패한 배치를 격리합니다.

B. failFast 모드를 false로 설정하고 스키마 진화를 활성화하는 자동 로더를 사용하세요. 유효하지 않은 레코드는 수집 중에 자동으로 무시됩니다.

C. SQL 파이프라인과 함께 Lakeflow Spark 선언적 파이프라인을 사용하고, critical_fields가 null이 아닌 행을 삭제하도록 구성하며, 잘못된 형식의 데이터는 감사 로그를 통해 확인합니다.

D. LDP와 함께 자동 로더를 사용하고 레코드 감사 로직을 포함하는 EXPECT() 제약 조건을 구현하여 잘못된 레코드를 라우팅합니다.

Databricks-Certified-Data-Engineer-Professional 문제 85

상위 시스템에서 변경 데이터 캡처(CDC) 로그가 생성되어 클라우드 객체 스토리지 디렉터리에 기록됩니다. 로그의 각 레코드는 변경 유형(삽입, 업데이트 또는 삭제)과 변경 후 각 필드의 값을 나타냅니다. 소스 테이블에는 pk_id 필드로 식별되는 기본 키가 있습니다.
감사 목적으로 데이터 거버넌스 팀은 소스 시스템에서 유효했던 모든 값에 대한 전체 기록을 유지하고자 합니다. 분석 목적으로는 각 레코드의 가장 최근 값만 기록하면 됩니다. 이러한 레코드를 수집하는 Databricks 작업은 한 시간에 한 번 실행되지만, 각 레코드는 한 시간 동안 여러 번 변경될 수 있습니다.
어떤 솔루션이 이러한 요구 사항을 충족합니까?

A. 각 pk_id에 대해 별도의 기록 테이블을 생성하고, 모든 기록 테이블에서 가장 최근 상태를 필터링하여 테이블의 현재 상태를 확인합니다.

B. merge into를 사용하여 각 pk_id에 대한 가장 최근 항목을 bronze 테이블에 삽입, 업데이트 또는 삭제한 다음 모든 변경 사항을 시스템 전체에 전파합니다.

C. 테이블에 대한 일련의 변경 사항을 순서대로 반복하여 각 변경 사항을 순차적으로 적용합니다. Delta Lake의 버전 관리 기능을 활용하여 감사 로그를 생성합니다.

D. Delta Lake의 변경 데이터 피드를 사용하여 외부 시스템의 CDC 데이터를 자동으로 처리하고 모든 변경 사항을 Lakehouse의 모든 종속 테이블에 전파합니다.

E. 모든 로그 정보를 브론즈 테이블에 수집하고, merge into를 사용하여 각 pk_id에 대한 가장 최근 항목을 실버 테이블에 삽입, 업데이트 또는 삭제하여 현재 테이블 상태를 복원합니다.

최근 업로드: 114F5.F5CAB3.v2026-06-20.q47; 103Appian.ACD201.v2026-06-20.q47; 103Archer.Archer-Expert.v2026-06-20.q25; 103ITSpecialist.INF-306.v2026-06-20.q24; 129Salesforce.Salesforce-AI-Specialist.v2026-06-19.q86; 130Oracle.1Z1-948.v2026-06-19.q40; 239EXIN.ITILFNDv4.v2026-06-18.q182; 172Adobe.AD0-E605.v2026-06-18.q77; 214Huawei.H12-831_V1.0-ENU.v2026-06-18.q172; 183Microsoft.MB-700.v2026-06-18.q349