Databricks-Certified-Data-Engineer-Professional 문제 96
데이터 과학 팀에서 사용자 리뷰의 자유 형식 텍스트에 대한 쿼리 속도를 높이는 데 도움을 요청했습니다. 데이터는 현재 아래와 같은 스키마의 Parquet 형식으로 저장되어 있습니다.
item_id INT, user_id INT, review_id INT, rating FLOAT, review STRING
리뷰 열에는 사용자가 남긴 리뷰 전문이 포함되어 있습니다. 데이터 과학 팀은 특히 이 필드에 30개의 핵심 단어가 있는지 여부를 확인하고자 합니다.
신입 데이터 엔지니어가 이 데이터를 Delta Lake로 변환하면 쿼리 성능이 향상될 것이라고 제안했습니다.
주니어 데이터 엔지니어의 제안에 대한 다음 답변 중 올바른 것은 무엇입니까?
item_id INT, user_id INT, review_id INT, rating FLOAT, review STRING
리뷰 열에는 사용자가 남긴 리뷰 전문이 포함되어 있습니다. 데이터 과학 팀은 특히 이 필드에 30개의 핵심 단어가 있는지 여부를 확인하고자 합니다.
신입 데이터 엔지니어가 이 데이터를 Delta Lake로 변환하면 쿼리 성능이 향상될 것이라고 제안했습니다.
주니어 데이터 엔지니어의 제안에 대한 다음 답변 중 올바른 것은 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 97
Databricks CLI가 올바르게 설치 및 구성되었다고 가정할 때, 프로덕션 작업에서 사용하기 위해 DBFS로 마운트된 객체 스토리지에 사용자 지정 Python Wheel을 업로드하는 데 사용할 수 있는 Databricks CLI 명령은 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 98
데이터 엔지니어는 최근 실행된 작업에 대한 정보(복구 이력 포함)를 수집하는 애플리케이션을 개발해야 합니다. 데이터 엔지니어는 어떤 형식으로 요청을 제출해야 할까요?
Databricks-Certified-Data-Engineer-Professional 문제 99
데이터 엔지니어링 팀은 수천 개의 테이블과 뷰로 구성된 엔터프라이즈 시스템을 레이크하우스로 마이그레이션하고 있습니다. 이들은 브론즈, 실버, 골드 테이블 계층 구조를 사용하여 목표 아키텍처를 구현할 계획입니다. 브론즈 테이블은 주로 프로덕션 데이터 엔지니어링 워크로드에 사용되고, 실버 테이블은 데이터 엔지니어링 및 머신 러닝 워크로드를 모두 지원하는 데 사용됩니다. 골드 테이블은 주로 비즈니스 인텔리전스 및 보고 목적으로 사용됩니다. 모든 데이터 계층에 개인 식별 정보(PII)가 존재하지만, 실버 및 골드 계층의 모든 데이터에는 가명화 및 익명화 규칙이 적용됩니다.
해당 조직은 다양한 팀 간의 협업 능력을 극대화하면서 보안 문제를 줄이는 데 관심이 있습니다.
다음 중 이 시스템 구현을 위한 모범 사례를 보여주는 문장은 무엇입니까?
해당 조직은 다양한 팀 간의 협업 능력을 극대화하면서 보안 문제를 줄이는 데 관심이 있습니다.
다음 중 이 시스템 구현을 위한 모범 사례를 보여주는 문장은 무엇입니까?
Databricks-Certified-Data-Engineer-Professional 문제 100
데이터 엔지니어가 세 개의 노트북을 오케스트레이션하는 멀티태스킹 Databricks 작업을 배포합니다. 그중 한 작업이 간헐적으로 종료 코드 1로 실패하지만 재시도하면 성공합니다. 엔지니어는 실패한 시도에 대한 자세한 로그(표준 출력/표준 오류 및 클러스터 수명 주기 컨텍스트 포함)를 수집하여 플랫폼 팀과 공유해야 합니다. 데이터 엔지니어는 내장 도구를 사용하여 어떤 단계를 따라야 할까요?
