DP-203 문제 46

참고: 이 질문은 동일한 시나리오를 제시하는 일련의 질문의 일부입니다. 시리즈의 각 질문에는 명시된 목표를 달성할 수 있는 고유한 솔루션이 포함되어 있습니다. 일부 질문 세트에는 정답이 두 개 이상 있을 수 있지만 다른 질문 세트에는 정답이 없을 수도 있습니다.
이 섹션의 질문에 답변한 후에는 해당 질문으로 돌아갈 수 없습니다. 결과적으로 이러한 질문은 검토 화면에 표시되지 않습니다.
계층 구조가 있는 Azure Databricks 작업 영역을 만들 계획입니다. 작업공간에는 다음 세 가지 워크로드가 포함됩니다.
* Python 및 SQL을 사용할 데이터 엔지니어를 위한 워크로드입니다.
* Python, Scala 및 SOL을 사용하는 노트북을 실행하는 작업에 대한 워크로드입니다.
* 데이터 과학자가 Scala 및 R에서 임시 분석을 수행하는 데 사용할 워크로드입니다.
회사의 엔터프라이즈 아키텍처 팀은 Databricks 환경에 대해 다음 표준을 식별합니다.
* 데이터 엔지니어는 클러스터를 공유해야 합니다.
* 작업 클러스터는 데이터 과학자와 데이터 엔지니어가 클러스터에 배포할 패키지 노트북을 제공하는 요청 프로세스를 사용하여 관리됩니다.
* 모든 데이터 과학자에게는 120분 동안 활동이 없으면 자동으로 종료되는 자체 클러스터가 할당되어야 합니다. 현재 데이터 과학자는 3명이다.
워크로드에 대한 Databricks 클러스터를 만들어야 합니다.
해결 방법: 각 데이터 과학자를 위한 표준 클러스터, 데이터 엔지니어를 위한 표준 클러스터, 작업을 위한 높은 동시성 클러스터를 생성합니다.
이것이 목표를 달성합니까?

DP-203 문제 47

Azure AD(Azure Active Directory) 통합을 사용하여 Azure Data Lake Storage Gen2에 자동으로 연결하는 Azure Databricks 클러스터를 구현해야 합니다.
새 클러스터를 어떻게 구성해야 합니까? 답변하려면 답변 영역에서 적절한 옵션을 선택하세요.
참고: 올바른 선택은 각각 1점의 가치가 있습니다.

DP-203 문제 48

Azure Data Lake Storage Gen2 컨테이너에서 Azure Synapse Analytics 전용 SQL 풀의 데이터베이스로 데이터를 이동하기 위해 Azure Data Factory 파이프라인을 빌드합니다.
컨테이너의 데이터는 다음 폴더 구조로 저장됩니다.
/in/{YYYY}/{MM}/{DD}/{HH}/{mm}
가장 빠른 폴더는 /in/2021/01/01/00/00입니다. 최신 폴더는 /in/2021/01/15/01/45입니다.
다음 요구 사항을 충족하도록 파이프라인 트리거를 구성해야 합니다.
기존 데이터를 로드해야 합니다.
데이터는 30분마다 로드되어야 합니다.
최대 2분까지 늦게 도착하는 데이터는 데이터가 도착해야 하는 시간 동안 로드에 포함되어야 합니다.
파이프라인 트리거를 어떻게 구성해야 합니까? 답변하려면 답변에서 적절한 옵션을 선택하세요.
참고: 올바른 선택은 각각 1점의 가치가 있습니다.

DP-203 문제 49

Azure Databricks를 사용하여 DBTBL1이라는 데이터 세트를 개발합니다.
DBTBL1에는 다음 열이 포함되어 있습니다.
* 센서 유형ID
* 지리지역ID
* 년도
* 월
* 낮
* 시간
* 분
* 온도
* 바람 속도
* 다른
각 GeographyRegionID에 따라 달라지는 일일 증분 로드 파이프라인을 지원하려면 데이터를 저장해야 합니다.
솔루션은 스토리지 비용을 최소화해야 합니다.
코드를 어떻게 완성해야 할까요? 답변하려면 답변 영역에서 적절한 옵션을 선택하세요.
참고: 올바른 선택은 각각 1점의 가치가 있습니다.

DP-203 문제 50

실시간 데이터 처리 솔루션의 고가용성을 높이려면 어떻게 해야 할까요?