무료 온라인 액세스 Databricks.Databricks-Certified-Data-Engineer-Professional.v2026-06-15.q112 모의 시험 (Page 16)

Databricks-Certified-Data-Engineer-Professional 문제 71

데이터 엔지니어가 브론즈 델타 테이블에서 트랜잭션 데이터를 읽어들이기 위해 구조화된 스트리밍(Structured Streaming)을 사용하고 있습니다. 그런데 데이터 품질에 문제가 있어 트랜잭션 값이 음수인 경우가 발견되었습니다. 이러한 경우 해당 행을 별도의 격리 테이블로 이동시켜야 합니다. 정상적인 데이터는 하위 시스템에서 사용되므로 지연 시간이 매우 짧아야 하지만, 품질이 떨어지는 데이터는 주기적으로만 분석되며 프로덕션 시스템에는 영향을 미치지 않습니다. 격리 작업은 정상적인 데이터에 의존하는 프로덕션 프로세스에 영향을 주지 않도록 구현해야 하며, 작업 비용 또한 최소화해야 합니다. 이러한 요구 사항을 충족하는 격리 프로세스는 어떻게 구현해야 할까요?

A. 정상 데이터에 대한 스트리밍 작업은 쓰기 전에 거래 금액이 0보다 작은 레코드를 필터링하도록 수정해야 합니다. 격리 데이터에 대한 스트리밍 작업은 쓰기 전에 거래 금액이 0 이상인 레코드를 필터링하도록 수정해야 합니다. 두 작업 모두 비용을 최소화하기 위해 동일한 클러스터에서 별도의 스트림으로 실행해야 합니다.

B. 정상 데이터에 대한 기존 스트리밍 작업에 불량 데이터 격리 기능을 추가해야 합니다. 데이터프레임에 "격리"라는 새로운 부울 열을 추가하고, 거래 금액이 0보다 작으면 true, 0보다 크거나 같으면 false로 설정해야 합니다. 모든 데이터를 함께 처리하고 저장하면 비용을 절감할 수 있습니다.

C. 정상 데이터에 대한 기존 스트리밍 작업을 업데이트하여 불량 데이터 격리 기능을 추가해야 합니다. foreachBatch 함수 내부에서, 트랜잭션 값이 0 이상인 레코드는 정상 데이터 테이블에, 0 미만인 레코드는 격리 테이블에 기록되도록 데이터프레임을 필터링해야 합니다. foreachBatch 함수 내의 쓰기 작업에 try/catch 블록을 추가하여 스트림 오류가 발생하지 않도록 할 수 있습니다.

D. 정상 데이터에 대한 스트리밍 작업은 쓰기 전에 거래 금액이 0보다 작은 레코드를 필터링하도록 수정해야 하며, 다른 프로세스와 컴퓨팅 리소스를 공유해서는 안 됩니다. 격리 데이터에 대한 스트리밍 작업은 쓰기 전에 거래 금액이 0 이상인 레코드를 필터링해야 하며, 비용을 최소화하기 위해 별도의 소규모 클러스터에서 구현하고 하루에 한 번만 실행해야 합니다.

Databricks-Certified-Data-Engineer-Professional 문제 72

데이터 설계자는 레이크하우스의 모든 테이블을 외부 Delta Lake 테이블로 구성해야 한다고 지시했습니다.
어떤 접근 방식이 이 요구 사항을 충족시킬 수 있을까요?

A. 데이터베이스를 생성할 때마다 location 키워드를 사용해야 합니다. 최신 및 실제 공인 데이터 엔지니어 전문가 시험 문제와 답을 확인하세요.

B. 모든 테이블 저장소를 위해 외부 데이터 웨어하우스를 구성할 때 모든 ELT에 Databricks를 활용하십시오.

C. 테이블을 생성할 때마다 location 키워드를 반드시 사용하십시오.

D. 테이블을 생성할 때, CREATE TABLE 문에 external 키워드를 반드시 사용해야 합니다.

E. 워크스페이스를 구성할 때 외부 클라우드 객체 스토리지가 마운트되었는지 확인하십시오.

Databricks-Certified-Data-Engineer-Professional 문제 73

데이터 과학 팀에서 사용자 리뷰의 자유 형식 텍스트에 대한 쿼리 속도를 높이는 데 도움을 요청했습니다. 데이터는 현재 아래와 같은 스키마의 Parquet 형식으로 저장되어 있습니다.
item_id INT, user_id INT, review_id INT, rating FLOAT, review STRING
리뷰 열에는 사용자가 남긴 리뷰 전문이 포함되어 있습니다. 데이터 과학 팀은 특히 이 필드에 30개의 핵심 단어가 있는지 여부를 확인하고자 합니다.
신입 데이터 엔지니어가 이 데이터를 Delta Lake로 변환하면 쿼리 성능이 향상될 것이라고 제안했습니다.
주니어 데이터 엔지니어의 제안에 대한 다음 답변 중 올바른 것은 무엇입니까?

A. Delta Lake 통계는 카디널리티가 높은 자유 텍스트 필드에 최적화되어 있지 않습니다.

B. Delta Lake에서는 텍스트 데이터를 저장할 수 없습니다.

C. 성능 향상을 확인하려면 ZORDER ON 검토를 실행해야 합니다.

D. 델타 로그는 선택적 필터링을 지원하기 위해 자유 텍스트 필드에 대한 용어 행렬을 생성합니다.

E. 델타 호수 통계는 표의 첫 4개 열에만 수집됩니다.

Databricks-Certified-Data-Engineer-Professional 문제 74

Databricks Auto Loader의 기본 실행 모드를 설명하는 문장은 무엇입니까?

A. 새 파일은 입력 디렉터리 목록을 통해 식별되며, 새 파일은 대상 Delta Lake 테이블에 점진적으로 그리고 멱등적으로 로드됩니다.

B. 클라우드 공급업체별 큐 스토리지 및 알림 서비스가 구성되어 새로 도착하는 파일을 추적합니다. 새 파일은 대상 Delta Lake 테이블에 점진적으로 그리고 비활성 상태로 저장됩니다.

C. 웹훅 트리거를 통해 소스 디렉터리에 새 데이터가 도착할 때마다 Databricks 작업이 실행됩니다. 새 데이터는 데이터에서 추론된 규칙을 사용하여 대상 테이블에 자동으로 병합됩니다.

D. 새 파일은 입력 디렉터리를 나열하여 식별하고, 대상 테이블은 소스 디렉터리의 모든 유효한 파일을 디렉터리 쿼리하여 구체화합니다.

E. 클라우드 공급업체별 큐 스토리지 및 알림 서비스가 구성되어 새로 도착하는 파일을 추적합니다. 대상 테이블은 소스 디렉터리의 모든 유효 파일을 직접 쿼리하여 구체화됩니다.

Databricks-Certified-Data-Engineer-Professional 문제 75

예측 최적화는 Unity 카탈로그 관리 테이블에 대해 기본적으로 활성화된 Databricks의 자동화된 서비스입니다. 이 서비스는 델타 테이블을 지속적으로 최적화하여 최적의 성능과 비용을 보장함으로써 델타 테이블을 관리하는 데 도움을 줍니다. 예측 최적화는 델타 테이블을 관리하기 위해 어떤 두 가지 작업을 실행합니까? (두 가지를 선택하십시오.)

A. 파티션 기준

B. 컴팩트

C. 분석

D. 최적화

E. 버킷팅

최근 업로드: 124Salesforce.Salesforce-AI-Specialist.v2026-06-19.q86; 129Oracle.1Z1-948.v2026-06-19.q40; 209EXIN.ITILFNDv4.v2026-06-18.q182; 167Adobe.AD0-E605.v2026-06-18.q77; 200Huawei.H12-831_V1.0-ENU.v2026-06-18.q172; 174Microsoft.MB-700.v2026-06-18.q349; 193PECB.ISO-9001-Lead-Auditor.v2026-06-18.q188; 136Peoplecert.ITIL-4-Specialist-High-velocity-IT.v2026-06-18.q43; 135RedHat.EX280.v2026-06-18.q12; 133Juniper.JN0-481.v2026-06-18.q70