무료 온라인 액세스 Microsoft.DP-203.v2024-07-29.q315 모의 시험 (Page 17)

DP-203 문제 76

한 회사는 PaaS(Platform-as-a-Service)를 사용하여 새로운 데이터 파이프라인 프로세스를 만들 계획입니다. 프로세스는 다음 요구 사항을 충족해야 합니다.
섭취:
여러 데이터 소스에 액세스하세요.
워크플로를 조정하는 기능을 제공합니다.
SQL Server Integration Services 패키지를 실행하는 기능을 제공합니다.
가게:
빅데이터 워크로드에 맞게 스토리지를 최적화하세요.
저장 데이터의 암호화를 제공합니다.
크기 제한 없이 작동합니다.
준비 및 훈련:
탐색 및 시각화를 위한 완벽하게 관리되는 대화형 작업 공간을 제공합니다.
R, SQL, Python, Scala 및 Java로 프로그래밍할 수 있는 기능을 제공합니다.
Azure Active Directory를 통해 원활한 사용자 인증을 제공하세요.
모델 & 서브:
기본 열 형식 스토리지를 구현합니다.
SQL 언어 지원
구조화된 스트리밍을 지원합니다.
데이터 통합 파이프라인을 구축해야 합니다.
어떤 기술을 사용해야 합니까? 답변하려면 답변 영역에서 적절한 옵션을 선택하세요.
참고: 올바른 선택은 각각 1점의 가치가 있습니다.

DP-203 문제 77

Azure Databricks의 Delta Lake에 있는 테이블을 사용할 2개의 솔루션을 설계하고 있습니다.
다음을 수행하는 데 걸리는 시간을 최소화해야 합니다.
*파티션되지 않은 테이블에 대한 쿼리
* 분할되지 않은 열에 대한 조인
솔루션에 어떤 두 가지 옵션을 포함해야 합니까? 각 정답은 솔루션의 일부를 나타냅니다.
(Microsoft Azure의 데이터 엔지니어링을 기반으로 답변을 뒷받침하기 위해 정답을 선택하고 설명 및 참조 제공)

A. Z 순서

B. Apache Spark 캐싱

C. 동적 파일 정리(DFP)

D. 복제 명령

정답: A,B

1. Z-Ordering: Z-Ordering은 동일한 물리적 파티션에서 동일한 열 값을 공유하는 데이터를 같은 위치에 배치하여 쿼리 성능을 향상시킵니다. 이렇게 하면 쿼리 실행 중에 노드 간에 데이터를 섞을 필요성이 줄어듭니다. Z-Ordering을 사용하면 전체 테이블 스캔을 방지하고 처리되는 데이터 양을 줄일 수 있습니다.
2. Apache Spark 캐싱: 메모리에 데이터를 캐싱하면 디스크에서 읽는 데이터 양이 줄어들어 쿼리 성능이 향상될 수 있습니다. 이는 동일한 데이터에 액세스해야 하는 후속 쿼리의 속도를 높이는 데 도움이 됩니다. 테이블을 캐시하면 데이터 소스에서 데이터를 읽어 메모리에 저장합니다. 후속 쿼리는 메모리에서 데이터를 읽을 수 있으며 이는 디스크에서 읽는 것보다 훨씬 빠릅니다.
설명:
웹에서 찾은 정보에 따르면, 분할되지 않은 테이블에서 쿼리 및 조인을 수행하는 데 걸리는 시간을 최소화하기 위해 솔루션에 포함해야 하는 두 가지 옵션은 다음과 같습니다.
Z-Ordering: 동일한 파일 세트에 관련 정보를 같은 위치에 배치하는 기술입니다. 이 공동 지역성은 데이터 건너뛰기 알고리즘에서 Delta Lake에 의해 자동으로 사용됩니다. 이 동작은 Azure Databricks의 Delta Lake가 읽어야 하는 데이터 양을 크게 줄입니다123.
Apache Spark 캐싱: 더 빠른 액세스를 위해 메모리나 디스크에 데이터를 캐시할 수 있는 기능입니다. 캐싱은 동일한 데이터에 대한 반복 쿼리 및 조인의 성능을 향상시킬 수 있습니다. CACHE TABLE 또는 CACHE LAZY 명령을 사용하여 Delta 테이블을 캐시할 수 있습니다.
분할되지 않은 테이블에 대해 쿼리를 수행하고 Azure Databricks의 Delta Lake에 있는 분할되지 않은 열에 대한 조인을 수행하는 데 걸리는 시간을 최소화하려면 솔루션에 다음 옵션을 포함해야 합니다.
참조:
Databricks의 Delta Lake: https://docs.databricks.com/delta/index.html
Databricks의 Delta Lake 모범 사례: https://databricks.com/blog/2020/05/14/best-practices-for-delta-lake-on-databricks.html

DP-203 문제 78

Azure Databricks를 사용하여 DBTBL1이라는 데이터 세트를 개발합니다.
DBTBL1에는 다음 열이 포함되어 있습니다.
* 센서 유형D
* 지리지역ID
* 년도
* 월
* 낮
* 시간
* 분
* 온도
* 바람 속도
* 다른
각 GeographyRegionID에 따라 달라지는 일일 증분 로드 파이프라인을 지원하려면 데이터를 저장해야 합니다.
솔루션은 스토리지 비용을 최소화해야 합니다.
코드를 어떻게 완성해야 할까요? 답변하려면 답변 영역에서 적절한 옵션을 선택하세요.
참고: 올바른 선택은 각각 1점의 가치가 있습니다.

DP-203 문제 79

작업 영역1이라는 Azure Synapse Analytics 작업 영역이 포함된 Azure 구독이 있습니다.
Workspace1에는 SQL Pool이라는 전용 SQL 풀과 Sparkpool이라는 Apache Spark 풀이 포함되어 있습니다.
Sparkpool1에는 pyspark.df라는 DataFrame이 포함되어 있습니다.
PySpark 노트북을 사용하여 SQLPooM의 탭에 pyspark_df의 내용을 작성해야 합니다.
코드를 어떻게 완성해야 할까요? 답변하려면 답변 영역에서 적절한 옵션을 선택하세요.
참고: 올바른 선택은 각각 1점의 가치가 있습니다.

DP-203 문제 80

Azure Data Lake Storage Gen2 컨테이너에 파일을 저장합니다. 컨테이너에는 다음 그림에 표시된 스토리지 정책이 있습니다.

드롭다운 메뉴를 사용하여 그래픽에 표시된 정보를 기반으로 각 문항을 완성하는 답변 선택을 선택하세요.
참고: 올바른 선택마다 1점의 가치가 있습니다.

다른 버전: 1477Microsoft.DP-203.v2025-02-14.q256; 1095Microsoft.DP-203.v2023-07-04.q113; 2410Microsoft.DP-203.v2022-11-21.q204; 1493Microsoft.DP-203.v2022-07-02.q103; 2686Microsoft.DP-203.v2022-01-15.q136

최근 업로드: 118TheBerylInstitute.CPXP.v2026-06-06.q56; 154ACAMS.CAMS7-KR.v2026-06-05.q213; 166PaloAltoNetworks.XSIAM-Analyst.v2026-06-04.q72; 150NLN.NEX.v2026-06-04.q54; 191Microsoft.AZ-500-KR.v2026-06-04.q213; 179Microsoft.DP-600-KR.v2026-06-04.q98; 194Microsoft.AZ-204-KR.v2026-06-04.q237; 179Microsoft.PL-600-KR.v2026-06-04.q112; 238Microsoft.SC-300-KR.v2026-06-03.q151; 208Microsoft.DP-600-KR.v2026-06-03.q70