DP-203-KR 문제 51
참고: 이 질문은 동일한 시나리오를 제시하는 일련의 질문 중 일부입니다. 시리즈의 각 질문에는 명시된 목표를 충족할 수 있는 고유한 솔루션이 포함되어 있습니다. 일부 질문 세트에는 하나 이상의 올바른 솔루션이 있을 수 있지만 다른 질문 세트에는 올바른 솔루션이 없을 수 있습니다.
이 섹션의 질문에 답한 후에는 해당 질문으로 돌아갈 수 없습니다. 결과적으로 이러한 질문은 검토 화면에 나타나지 않습니다.
계층 구조가 있는 Azure Databricks 작업 영역을 만들 계획입니다. 작업 영역에는 다음 세 가지 워크로드가 포함됩니다.
Python 및 SQL을 사용할 데이터 엔지니어를 위한 워크로드입니다.
Python, Scala 및 SOL을 사용하는 노트북을 실행할 작업에 대한 워크로드입니다.
데이터 과학자가 Scala 및 R에서 임시 분석을 수행하는 데 사용할 워크로드입니다.
회사의 엔터프라이즈 아키텍처 팀은 Databricks 환경에 대해 다음 표준을 식별합니다.
데이터 엔지니어는 클러스터를 공유해야 합니다.
작업 클러스터는 데이터 과학자와 데이터 엔지니어가 클러스터에 배포할 패키지 노트북을 제공하는 요청 프로세스를 사용하여 관리됩니다.
모든 데이터 과학자에게는 120분 동안 활동이 없으면 자동으로 종료되는 자체 클러스터가 할당되어야 합니다. 현재 세 명의 데이터 과학자가 있습니다.
워크로드에 대한 Databricks 클러스터를 만들어야 합니다.
솔루션: 각 데이터 과학자를 위한 표준 클러스터, 데이터 엔지니어를 위한 표준 클러스터 및 작업을 위한 높은 동시성 클러스터를 만듭니다.
이것이 목표를 달성합니까?
이 섹션의 질문에 답한 후에는 해당 질문으로 돌아갈 수 없습니다. 결과적으로 이러한 질문은 검토 화면에 나타나지 않습니다.
계층 구조가 있는 Azure Databricks 작업 영역을 만들 계획입니다. 작업 영역에는 다음 세 가지 워크로드가 포함됩니다.
Python 및 SQL을 사용할 데이터 엔지니어를 위한 워크로드입니다.
Python, Scala 및 SOL을 사용하는 노트북을 실행할 작업에 대한 워크로드입니다.
데이터 과학자가 Scala 및 R에서 임시 분석을 수행하는 데 사용할 워크로드입니다.
회사의 엔터프라이즈 아키텍처 팀은 Databricks 환경에 대해 다음 표준을 식별합니다.
데이터 엔지니어는 클러스터를 공유해야 합니다.
작업 클러스터는 데이터 과학자와 데이터 엔지니어가 클러스터에 배포할 패키지 노트북을 제공하는 요청 프로세스를 사용하여 관리됩니다.
모든 데이터 과학자에게는 120분 동안 활동이 없으면 자동으로 종료되는 자체 클러스터가 할당되어야 합니다. 현재 세 명의 데이터 과학자가 있습니다.
워크로드에 대한 Databricks 클러스터를 만들어야 합니다.
솔루션: 각 데이터 과학자를 위한 표준 클러스터, 데이터 엔지니어를 위한 표준 클러스터 및 작업을 위한 높은 동시성 클러스터를 만듭니다.
이것이 목표를 달성합니까?
DP-203-KR 문제 52
다양한 양의 데이터를 수집할 스트리밍 데이터 솔루션을 설계하고 있습니다.
생성 후 파티션 수를 변경할 수 있는지 확인해야 합니다.
데이터를 수집하려면 어떤 서비스를 사용해야 합니까?
생성 후 파티션 수를 변경할 수 있는지 확인해야 합니다.
데이터를 수집하려면 어떤 서비스를 사용해야 합니까?
DP-203-KR 문제 53
CSV 파일에서 데이터를 수집하고 지정된 데이터 유형으로 열을 캐스팅하고 Azure Synapse Analytic 전용 SQL 풀의 테이블에 데이터를 삽입하는 Azure Data Factory 데이터 흐름을 만들고 있습니다. CSV 파일에는 사용자 이름, 설명 및 날짜라는 세 개의 열이 있습니다.
데이터 흐름에는 이미 다음이 포함되어 있습니다.
소스 변환.
적절한 데이터 유형을 설정하기 위한 파생 열 변환.
데이터를 풀에 배치하기 위한 싱크 변환.
데이터 흐름이 다음 요구 사항을 충족하는지 확인해야 합니다.
모든 유효한 행은 대상 테이블에 기록되어야 합니다.
주석 열의 잘림 오류는 사전 예방적으로 방지해야 합니다.
삽입 시 잘림 오류가 발생하는 주석 값을 포함하는 모든 행은 Blob Storage의 파일에 기록되어야 합니다.
어떤 두 가지 작업을 수행해야 합니까? 각 정답은 솔루션의 일부를 나타냅니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
데이터 흐름에는 이미 다음이 포함되어 있습니다.
소스 변환.
적절한 데이터 유형을 설정하기 위한 파생 열 변환.
데이터를 풀에 배치하기 위한 싱크 변환.
데이터 흐름이 다음 요구 사항을 충족하는지 확인해야 합니다.
모든 유효한 행은 대상 테이블에 기록되어야 합니다.
주석 열의 잘림 오류는 사전 예방적으로 방지해야 합니다.
삽입 시 잘림 오류가 발생하는 주석 값을 포함하는 모든 행은 Blob Storage의 파일에 기록되어야 합니다.
어떤 두 가지 작업을 수행해야 합니까? 각 정답은 솔루션의 일부를 나타냅니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
DP-203-KR 문제 54
Table1이라는 해시 분산 팩트 테이블을 포함하는 SQL1이라는 Azure Synapse Analytics 전용 SQL 풀이 있습니다.
Table1을 다시 만들고 새 배포 열을 추가해야 합니다. 솔루션은 데이터 가용성을 극대화해야 합니다.
어떤 4가지 작업을 순서대로 수행해야 합니까? 답변하려면 작업 목록에서 해당 작업을 답변 영역으로 이동하고 올바른 순서로 정렬하세요.

Table1을 다시 만들고 새 배포 열을 추가해야 합니다. 솔루션은 데이터 가용성을 극대화해야 합니다.
어떤 4가지 작업을 순서대로 수행해야 합니까? 답변하려면 작업 목록에서 해당 작업을 답변 영역으로 이동하고 올바른 순서로 정렬하세요.

DP-203-KR 문제 55
온도라는 Apache Spark DataFrame이 있습니다. 데이터 샘플은 다음 표에 나와 있습니다.

Spark SQL 쿼리를 사용하여 다음 테이블을 생성해야 합니다.

쿼리를 어떻게 완료해야 합니까? 응답하려면 적절한 값을 올바른 대상으로 드래그하십시오. 각 값은 한 번, 두 번 이상 사용되거나 전혀 사용되지 않을 수 있습니다. 콘텐츠를 보려면 창 사이의 분할 막대를 끌거나 스크롤해야 할 수 있습니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.


Spark SQL 쿼리를 사용하여 다음 테이블을 생성해야 합니다.

쿼리를 어떻게 완료해야 합니까? 응답하려면 적절한 값을 올바른 대상으로 드래그하십시오. 각 값은 한 번, 두 번 이상 사용되거나 전혀 사용되지 않을 수 있습니다. 콘텐츠를 보려면 창 사이의 분할 막대를 끌거나 스크롤해야 할 수 있습니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.






