Databricks-Certified-Data-Engineer-Professional 문제 21

데이터 엔지니어는 코드가 매우 유사한 여러 테이블 정의를 포함하는 다음 DLT 코드를 리팩토링하려고 합니다.

데이터 엔지니어는 매개변수화된 테이블 정의를 사용하여 이러한 테이블을 프로그래밍 방식으로 생성하기 위해 다음과 같은 코드를 작성했습니다.

파이프라인은 리팩토링된 코드를 사용하여 업데이트를 실행하지만, 이러한 테이블에 대해 잘못된 구성 값을 보여주는 다른 DAG를 생성합니다.
데이터 엔지니어는 이 문제를 어떻게 해결할 수 있을까요?

Databricks-Certified-Data-Engineer-Professional 문제 22

데이터 엔지니어는 manufacturing-team이라는 그룹에 액세스 권한을 부여해야 합니다. 이 팀은 quality 스키마에 테이블을 생성할 수 있는 권한이 필요합니다. manufacturing-team 그룹이 manufacturing이라는 상위 카탈로그를 가진 production 스키마에 테이블을 생성할 수 있도록 최소한의 권한으로 허용하는 SQL 명령은 무엇일까요?

Databricks-Certified-Data-Engineer-Professional 문제 23

데이터 거버넌스 팀은 개인 식별 정보(PH)가 포함된 모든 테이블에 명확한 주석을 추가해야 한다는 요구 사항을 도입했습니다. 여기에는 열 주석, 테이블 주석 추가 및 사용자 지정 테이블 속성 "contains_pii" = true 설정이 포함됩니다.
다음 SQL DDL 문이 실행되어 새 테이블이 생성됩니다.

이 세 가지 요구 사항이 충족되었는지 수동으로 확인할 수 있는 명령은 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 24

시간 단위 배치 작업이 구성되어 클라우드 객체 스토리지 컨테이너에서 데이터 파일을 수집합니다. 각 배치는 해당 시간 동안 소스 시스템에서 생성된 모든 레코드를 나타냅니다. 이러한 레코드를 레이크하우스에 처리하는 배치 작업은 지연된 데이터가 누락되지 않도록 충분한 시간 간격을 두고 실행됩니다. user_id 필드는 데이터의 고유 키이며, 다음과 같은 스키마를 갖습니다.
user_id는 BIGINT, username은 STRING, user_utc는 STRING, user_region은 STRING, last_login은 BIGINT, auto_pay는 BOOLEAN, last_updated는 BIGINT입니다. 모든 새 레코드는 account_history라는 테이블에 입력되며, 이 테이블은 소스와 동일한 스키마에 모든 데이터의 전체 기록을 유지합니다. 시스템의 다음 테이블은 account_current이며, 각 고유 user_id에 대한 최신 값을 나타내는 Type 1 테이블로 구현됩니다.
수백만 개의 사용자 계정과 시간당 수만 건의 레코드가 처리된다고 가정할 때, 매시간 배치 작업의 일부로 설명된 account_current 테이블을 효율적으로 업데이트하는 데 사용할 수 있는 구현 방법은 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 25

데이터 엔지니어가 기본 설정을 사용하여 공유 액세스 모드로 새 클러스터를 생성했습니다.
데이터 엔지니어는 필요한 경우 개발팀이 드라이버 로그를 볼 수 있도록 접근 권한을 부여해야 합니다.
개발팀이 이를 수행하는 데 필요한 최소 클러스터 권한은 무엇입니까?