Databricks-Certified-Data-Engineer-Professional 문제 16
한 회사가 Delta Lake 테이블에 계정 거래 내역을 저장합니다. 이 회사는 빈번한 계정 수준의 상관 관계 작업(예: UPDATE 문)을 수행해야 하지만, 파일 변경 빈도를 줄이고 쓰기 성능을 향상시키기 위해 변경 사항마다 전체 Parquet 파일을 다시 작성하는 것을 피하고자 합니다. 어떤 Delta Lake 기능을 활성화해야 할까요?
Databricks-Certified-Data-Engineer-Professional 문제 17
데이터 엔지니어링 팀은 고객 데이터 삭제(잊혀질 만한 데이터) 요청을 처리하는 작업을 구성했습니다. 삭제해야 할 모든 사용자 데이터는 기본 테이블 설정을 사용하여 Delta Lake 테이블에 저장됩니다.
팀은 지난주 삭제된 모든 데이터를 매주 일요일 새벽 1시에 일괄 처리하기로 결정했습니다. 이 작업의 총 소요 시간은 1시간 미만입니다. 또한 매주 월요일 새벽 3시에는 일괄 작업이 조직 전체의 Delta Lake 테이블에 대해 일련의 VACUUM 명령을 실행합니다.
준법감시 담당자는 최근 Delta Lake의 타임 트래블 기능에 대해 알게 되었습니다. 담당자는 이 기능으로 인해 삭제된 데이터에 계속 접근할 수 있을 가능성을 우려하고 있습니다.
모든 삭제 로직이 올바르게 구현되었다고 가정할 때, 다음 중 이 문제를 정확하게 해결하는 문장은 무엇입니까?
팀은 지난주 삭제된 모든 데이터를 매주 일요일 새벽 1시에 일괄 처리하기로 결정했습니다. 이 작업의 총 소요 시간은 1시간 미만입니다. 또한 매주 월요일 새벽 3시에는 일괄 작업이 조직 전체의 Delta Lake 테이블에 대해 일련의 VACUUM 명령을 실행합니다.
준법감시 담당자는 최근 Delta Lake의 타임 트래블 기능에 대해 알게 되었습니다. 담당자는 이 기능으로 인해 삭제된 데이터에 계속 접근할 수 있을 가능성을 우려하고 있습니다.
모든 삭제 로직이 올바르게 구현되었다고 가정할 때, 다음 중 이 문제를 정확하게 해결하는 문장은 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 18
다음 중 엔드투엔드 테스트의 주요 이점을 설명하는 문장은 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 19
현재 활성화된 클러스터의 모든 노드에 노트북 수준의 범위로 Python 패키지를 설치하는 방법은 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 20
데이터 엔지니어는 최신 DBR 버전이 설치된 클러스터를 사용하여 은행 거래 데이터를 저장하는 일일 배치 수집 파이프라인을 구축하고, 해당 데이터를 prod.gold.all_banking_transactions_daily라는 관리형 델타 테이블에 저장했습니다. 그런데 SQL Serverless Warehouse를 통해 이 테이블을 임의로 쿼리하는 비즈니스 사용자들로부터 쿼리 성능 저하에 대한 불만이 끊이지 않고 있습니다. 분석 결과, 데이터 엔지니어는 이러한 사용자들이 카디널리티가 높은 열을 필터로 자주 사용하는 것을 확인했습니다. 이제 엔지니어는 점진적이고 유지 관리가 용이하며 시간이 지남에 따라 발전할 수 있는 데이터 레이아웃 최적화 기법을 구현하고자 합니다. 어떤 명령어를 실행해야 할까요?
