무료 온라인 액세스 Databricks.Databricks-Certified-Data-Engineer-Professional.v2026-06-15.q112 모의 시험 (Page 12)

Databricks-Certified-Data-Engineer-Professional 문제 51

데이터 과학 팀은 MLflow를 사용하여 프로덕션 모델을 생성하고 로그에 기록했습니다. 이 모델은 열 이름 목록을 입력받아 DOUBLE 형식의 새 열을 반환합니다.
다음 코드는 프로덕션 모델을 올바르게 가져오고, customer_id 키 열을 포함하는 customers 테이블을 DataFrame으로 로드하고, 모델에 필요한 기능 열을 정의합니다.

어떤 코드 블록이 "customer_id LONG, predictions DOUBLE" 스키마를 가진 DataFrame을 출력합니까?

A. model.predict(df, columns)

B. df.map(lambda x:model(x[columns])).select("customer_id, predictions")

C. df.select("customer_id", model(*columns).alias("predictions"))

D. df.apply(model, columns).select("customer_id, predictions")

E. df.select("customer_id", pandas_udf(model, columns).alias("predictions"))

Databricks-Certified-Data-Engineer-Professional 문제 52

데이터 엔지니어는 S3 스토리지에 새 CSV 파일이 도착하는 즉시 자동으로 처리하는 효율적인 파이프라인을 설계해야 합니다. 이러한 요구 사항을 충족하기 위해 데이터 엔지니어는 어떤 Databricks 기능을 사용해야 할까요?

A. 표준 Spark readStream을 사용하여 ("csv") 및 ("json") 형식으로 클라우드 스토리지에서 스트리밍

B. 처리된 파일을 추적하기 위한 매개변수가 포함된 COPY INTO SQL 명령

C. 예약된 Databricks 작업을 사용한 기존 배치 처리

D. 스키마 추론 및 진화 기능이 활성화된 자동 로더

Databricks-Certified-Data-Engineer-Professional 문제 53

상위 시스템에서 변경 데이터 캡처(CDC) 로그가 생성되어 클라우드 객체 스토리지 디렉터리에 기록됩니다. 로그의 각 레코드는 변경 유형(삽입, 업데이트 또는 삭제)과 변경 후 각 필드의 값을 나타냅니다. 소스 테이블에는 pk_id 필드로 식별되는 기본 키가 있습니다.
분석 목적상, Lakehouse의 Delta Lake 대상 테이블에는 각 레코드의 가장 최근 값만 기록되면 됩니다. 이러한 레코드를 수집하는 Databricks 작업은 한 시간에 한 번 실행되지만, 각 레코드는 한 시간 동안 여러 번 변경될 수 있습니다.
어떤 솔루션이 이러한 요구 사항을 충족합니까?

A. MERGE INTO를 사용하여 각 pk_id에 대한 가장 최근 항목을 테이블에 삽입, 업데이트 또는 삭제한 다음 모든 변경 사항을 시스템 전체에 전파합니다.

B. Delta Lake의 변경 데이터 피드를 사용하여 외부 시스템의 CDC 데이터를 자동으로 처리하고 모든 변경 사항을 Lakehouse의 모든 종속 테이블에 전파합니다.

C. 테이블에 대한 일련의 변경 사항을 순서대로 반복하면서 각 변경 사항을 차례로 적용하여 테이블의 현재 상태(삽입, 업데이트, 삭제), 변경 타임스탬프 및 값을 생성합니다.

D. 각 배치에서 pk_id를 기준으로 중복 레코드를 제거하고 대상 테이블을 덮어씁니다.

Databricks-Certified-Data-Engineer-Professional 문제 54

매일 밤 실행되는 배치 작업은 클라우드 객체 스토리지 컨테이너에서 모든 데이터 파일을 가져오도록 구성되어 있으며, 해당 컨테이너의 레코드는 YYYY/MM/DD 형식의 중첩 디렉터리 구조로 저장됩니다. 각 날짜의 데이터는 해당 날짜에 소스 시스템에서 처리된 모든 레코드를 나타내며, 일부 레코드는 관리자 승인을 기다리는 동안 지연될 수 있습니다. 각 항목은 제품에 대한 사용자 리뷰를 나타내며 다음과 같은 스키마를 갖습니다.
user_id STRING, review_id BIGINT, product_id BIGINT, review_timestamp TIMESTAMP, review_text STRING 데이터 수집 작업은 이전 날짜의 모든 데이터를 소스 시스템과 동일한 스키마를 가진 대상 테이블 reviews_raw에 추가하도록 구성됩니다. 파이프라인의 다음 단계는 reviews_raw에 삽입된 모든 새 레코드를 중복 제거, 유효성 검사 및 보강이 완료된 테이블로 일괄 기록하는 작업입니다.
이 데이터 배치를 전파하는 데 필요한 컴퓨팅 비용을 최소화하는 솔루션은 무엇입니까?

A. reviews_raw 테이블에 대한 일괄 읽기를 수행하고, user_id, review_id, product_id, review_timestamp와 같은 자연 합성 키를 사용하여 삽입 전용 병합을 수행합니다.

B. reviews_raw 테이블에 대해 트리거 1회 실행 모드를 사용하여 구조화된 스트리밍 읽기를 구성하여 새 레코드를 배치 작업으로 처리합니다.

C. Delta Lake 버전 기록을 사용하여 reviews_raw의 최신 버전과 이전 버전 간의 차이점을 가져온 다음, 이러한 기록을 다음 테이블에 기록합니다.

D. reviews_raw 테이블의 모든 레코드를 review_timestamp를 기준으로 필터링하고, 지난 48시간 동안 생성된 레코드를 일괄적으로 추가합니다.

E. reviews_raw의 모든 레코드를 다시 처리하고 파이프라인의 다음 테이블을 덮어씁니다.

Databricks-Certified-Data-Engineer-Professional 문제 55

데이터 엔지니어인 사용자 A는 REST API를 사용하여 여러 작업을 프로그래밍 방식으로 생성함으로써 새로운 파이프라인을 프로덕션 환경으로 배포했습니다. DevOps 엔지니어인 사용자 B는 외부 오케스트레이션 도구를 구성하여 REST API를 통해 작업 실행을 트리거하도록 설정했습니다. 두 사용자 모두 개인 액세스 토큰을 사용하여 REST API 호출을 승인했습니다.
다음 중 해당 이벤트와 관련된 작업 공간 감사 로그의 내용을 설명하는 문장은 무엇입니까?

A. 작업 생성 및 실행 트리거에 REST API가 사용되었으므로 이러한 이벤트를 식별하기 위해 서비스 주체가 자동으로 사용됩니다.

B. 사용자 B가 마지막으로 작업을 구성했으므로, 작업 생성 이벤트와 작업 실행 이벤트 모두에 사용자 B의 ID가 연결됩니다.

C. 이러한 이벤트는 별도로 관리되므로 사용자 A는 작업 생성 이벤트와 관련된 ID를 갖게 되고, 사용자 B는 작업 실행 이벤트와 관련된 ID를 갖게 됩니다.

D. 작업 생성 및 실행 트리거에 REST API가 사용되었으므로 사용자 ID는 감사 로그에 기록되지 않습니다.

E. 사용자 A가 작업을 생성했으므로, 해당 사용자의 신원이 작업 생성 이벤트와 작업 실행 이벤트 모두와 연결됩니다.

최근 업로드: 119Salesforce.Salesforce-AI-Specialist.v2026-06-19.q86; 124Oracle.1Z1-948.v2026-06-19.q40; 194EXIN.ITILFNDv4.v2026-06-18.q182; 166Adobe.AD0-E605.v2026-06-18.q77; 186Huawei.H12-831_V1.0-ENU.v2026-06-18.q172; 162Microsoft.MB-700.v2026-06-18.q349; 189PECB.ISO-9001-Lead-Auditor.v2026-06-18.q188; 135Peoplecert.ITIL-4-Specialist-High-velocity-IT.v2026-06-18.q43; 132RedHat.EX280.v2026-06-18.q12; 131Juniper.JN0-481.v2026-06-18.q70