Databricks-Certified-Data-Engineer-Professional 문제 51

데이터 과학 팀은 MLflow를 사용하여 프로덕션 모델을 생성하고 로그에 기록했습니다. 이 모델은 열 이름 목록을 입력받아 DOUBLE 형식의 새 열을 반환합니다.
다음 코드는 프로덕션 모델을 올바르게 가져오고, customer_id 키 열을 포함하는 customers 테이블을 DataFrame으로 로드하고, 모델에 필요한 기능 열을 정의합니다.

어떤 코드 블록이 "customer_id LONG, predictions DOUBLE" 스키마를 가진 DataFrame을 출력합니까?

Databricks-Certified-Data-Engineer-Professional 문제 52

데이터 엔지니어는 S3 스토리지에 새 CSV 파일이 도착하는 즉시 자동으로 처리하는 효율적인 파이프라인을 설계해야 합니다. 이러한 요구 사항을 충족하기 위해 데이터 엔지니어는 어떤 Databricks 기능을 사용해야 할까요?

Databricks-Certified-Data-Engineer-Professional 문제 53

상위 시스템에서 변경 데이터 캡처(CDC) 로그가 생성되어 클라우드 객체 스토리지 디렉터리에 기록됩니다. 로그의 각 레코드는 변경 유형(삽입, 업데이트 또는 삭제)과 변경 후 각 필드의 값을 나타냅니다. 소스 테이블에는 pk_id 필드로 식별되는 기본 키가 있습니다.
분석 목적상, Lakehouse의 Delta Lake 대상 테이블에는 각 레코드의 가장 최근 값만 기록되면 됩니다. 이러한 레코드를 수집하는 Databricks 작업은 한 시간에 한 번 실행되지만, 각 레코드는 한 시간 동안 여러 번 변경될 수 있습니다.
어떤 솔루션이 이러한 요구 사항을 충족합니까?

Databricks-Certified-Data-Engineer-Professional 문제 54

매일 밤 실행되는 배치 작업은 클라우드 객체 스토리지 컨테이너에서 모든 데이터 파일을 가져오도록 구성되어 있으며, 해당 컨테이너의 레코드는 YYYY/MM/DD 형식의 중첩 디렉터리 구조로 저장됩니다. 각 날짜의 데이터는 해당 날짜에 소스 시스템에서 처리된 모든 레코드를 나타내며, 일부 레코드는 관리자 승인을 기다리는 동안 지연될 수 있습니다. 각 항목은 제품에 대한 사용자 리뷰를 나타내며 다음과 같은 스키마를 갖습니다.
user_id STRING, review_id BIGINT, product_id BIGINT, review_timestamp TIMESTAMP, review_text STRING 데이터 수집 작업은 이전 날짜의 모든 데이터를 소스 시스템과 동일한 스키마를 가진 대상 테이블 reviews_raw에 추가하도록 구성됩니다. 파이프라인의 다음 단계는 reviews_raw에 삽입된 모든 새 레코드를 중복 제거, 유효성 검사 및 보강이 완료된 테이블로 일괄 기록하는 작업입니다.
이 데이터 배치를 전파하는 데 필요한 컴퓨팅 비용을 최소화하는 솔루션은 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 55

데이터 엔지니어인 사용자 A는 REST API를 사용하여 여러 작업을 프로그래밍 방식으로 생성함으로써 새로운 파이프라인을 프로덕션 환경으로 배포했습니다. DevOps 엔지니어인 사용자 B는 외부 오케스트레이션 도구를 구성하여 REST API를 통해 작업 실행을 트리거하도록 설정했습니다. 두 사용자 모두 개인 액세스 토큰을 사용하여 REST API 호출을 승인했습니다.
다음 중 해당 이벤트와 관련된 작업 공간 감사 로그의 내용을 설명하는 문장은 무엇입니까?