Databricks-Certified-Data-Engineer-Professional 문제 71

데이터 엔지니어가 브론즈 델타 테이블에서 트랜잭션 데이터를 읽어들이기 위해 구조화된 스트리밍(Structured Streaming)을 사용하고 있습니다. 그런데 데이터 품질에 문제가 있어 트랜잭션 값이 음수인 경우가 발견되었습니다. 이러한 경우 해당 행을 별도의 격리 테이블로 이동시켜야 합니다. 정상적인 데이터는 하위 시스템에서 사용되므로 지연 시간이 매우 짧아야 하지만, 품질이 떨어지는 데이터는 주기적으로만 분석되며 프로덕션 시스템에는 영향을 미치지 않습니다. 격리 작업은 정상적인 데이터에 의존하는 프로덕션 프로세스에 영향을 주지 않도록 구현해야 하며, 작업 비용 또한 최소화해야 합니다. 이러한 요구 사항을 충족하는 격리 프로세스는 어떻게 구현해야 할까요?

Databricks-Certified-Data-Engineer-Professional 문제 72

데이터 설계자는 레이크하우스의 모든 테이블을 외부 Delta Lake 테이블로 구성해야 한다고 지시했습니다.
어떤 접근 방식이 이 요구 사항을 충족시킬 수 있을까요?

Databricks-Certified-Data-Engineer-Professional 문제 73

데이터 과학 팀에서 사용자 리뷰의 자유 형식 텍스트에 대한 쿼리 속도를 높이는 데 도움을 요청했습니다. 데이터는 현재 아래와 같은 스키마의 Parquet 형식으로 저장되어 있습니다.
item_id INT, user_id INT, review_id INT, rating FLOAT, review STRING
리뷰 열에는 사용자가 남긴 리뷰 전문이 포함되어 있습니다. 데이터 과학 팀은 특히 이 필드에 30개의 핵심 단어가 있는지 여부를 확인하고자 합니다.
신입 데이터 엔지니어가 이 데이터를 Delta Lake로 변환하면 쿼리 성능이 향상될 것이라고 제안했습니다.
주니어 데이터 엔지니어의 제안에 대한 다음 답변 중 올바른 것은 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 74

Databricks Auto Loader의 기본 실행 모드를 설명하는 문장은 무엇입니까?

Databricks-Certified-Data-Engineer-Professional 문제 75

예측 최적화는 Unity 카탈로그 관리 테이블에 대해 기본적으로 활성화된 Databricks의 자동화된 서비스입니다. 이 서비스는 델타 테이블을 지속적으로 최적화하여 최적의 성능과 비용을 보장함으로써 델타 테이블을 관리하는 데 도움을 줍니다. 예측 최적화는 델타 테이블을 관리하기 위해 어떤 두 가지 작업을 실행합니까? (두 가지를 선택하십시오.)