DP-203-KR 문제 86

참고: 이 질문은 동일한 시나리오를 제시하는 일련의 질문 중 일부입니다. 시리즈의 각 질문에는 명시된 목표를 충족할 수 있는 고유한 솔루션이 포함되어 있습니다. 일부 질문 세트에는 하나 이상의 올바른 솔루션이 있을 수 있지만 다른 질문 세트에는 올바른 솔루션이 없을 수 있습니다.
이 시나리오에서 질문에 답한 후에는 해당 질문으로 돌아갈 수 없습니다. 결과적으로 이러한 질문은 검토 화면에 나타나지 않습니다.
100GB의 파일이 포함된 Azure Storage 계정이 있습니다. 파일에는 텍스트와 숫자 값이 포함되어 있습니다. 행의 75%에는 평균 길이가 1.1MB인 설명 데이터가 포함되어 있습니다.
스토리지 계정에서 Azure Synapse Analytics의 엔터프라이즈 데이터 웨어하우스로 데이터를 복사할 계획입니다.
데이터가 빠르게 복사되도록 파일을 준비해야 합니다.
해결 방법: 파일을 구분된 압축된 텍스트 파일로 변환합니다.
이것이 목표를 달성합니까?

DP-203-KR 문제 87

Azure databricks를 사용하여 Purchases라는 데이터 세트를 개발할 계획입니다. Purchases에는 다음 열이 포함됩니다.
* 제품 ID
* 아이템 가격
* lineTotal
* 수량
* StorelD
* 분
* 월
* 시간
* 년도
* 낮
StoreID마다 달라지는 시간별 증분 로드 파이프라인을 지원하려면 데이터를 저장해야 합니다. 솔루션은 스토리지 비용을 최소화해야 합니다. 라이드를 어떻게 완료해야 합니까? 답변하려면 답변 영역에서 적절한 옵션을 선택합니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.

DP-203-KR 문제 88

Pool1이라는 Azure Synapse Analytics 전용 SQL 풀과 storage1이라는 Azure Data Lake Storage 계정이 포함된 Azure 구독이 있습니다. Storage1에는 안전한 전송이 필요합니다.
storage1에서 .orc 파일을 읽는 데 사용할 외부 데이터 원본을 Pool1에 만들어야 합니다.
코드를 어떻게 완성해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오.
참고: 각 올바른 선택은 1점의 가치가 있습니다.

DP-203-KR 문제 89

참고: 이 질문은 동일한 시나리오를 제시하는 일련의 질문 중 일부입니다. 시리즈의 각 질문에는 명시된 목표를 충족할 수 있는 고유한 솔루션이 포함되어 있습니다. 일부 질문 세트에는 하나 이상의 올바른 솔루션이 있을 수 있지만 다른 질문 세트에는 올바른 솔루션이 없을 수 있습니다.
이 섹션의 질문에 답한 후에는 해당 질문으로 돌아갈 수 없습니다. 결과적으로 이러한 질문은 검토 화면에 나타나지 않습니다.
계층 구조가 있는 Azure Databricks 작업 영역을 만들 계획입니다. 작업 영역에는 다음 세 가지 워크로드가 포함됩니다.
Python 및 SQL을 사용할 데이터 엔지니어를 위한 워크로드입니다.
Python, Scala 및 SOL을 사용하는 노트북을 실행할 작업에 대한 워크로드입니다.
데이터 과학자가 Scala 및 R에서 임시 분석을 수행하는 데 사용할 워크로드입니다.
회사의 엔터프라이즈 아키텍처 팀은 Databricks 환경에 대해 다음 표준을 식별합니다.
데이터 엔지니어는 클러스터를 공유해야 합니다.
작업 클러스터는 데이터 과학자와 데이터 엔지니어가 클러스터에 배포할 패키지 노트북을 제공하는 요청 프로세스를 사용하여 관리됩니다.
모든 데이터 과학자에게는 120분 동안 활동이 없으면 자동으로 종료되는 자체 클러스터가 할당되어야 합니다. 현재 세 명의 데이터 과학자가 있습니다.
워크로드에 대한 Databricks 클러스터를 만들어야 합니다.
솔루션: 각 데이터 과학자를 위한 표준 클러스터, 데이터 엔지니어를 위한 표준 클러스터 및 작업을 위한 높은 동시성 클러스터를 만듭니다.
이것이 목표를 달성합니까?

DP-203-KR 문제 90

매일 한 번 Azure Databricks에서 일괄 처리를 수행할 계획입니다.
어떤 유형의 Databricks 클러스터를 사용해야 하나요?