무료 온라인 액세스 Databricks.Associate-Developer-Apache-Spark-3.5.v2025-11-27.q71 모의 시험 (Page 2)

Associate-Developer-Apache-Spark-3.5 문제 1

55개 중 3개. 데이터 엔지니어는 업스트림 스트리밍 소스가 이벤트 테이블에 자주 데이터를 공급하고 중복 레코드를 전송하는 것을 발견했습니다. 현재 운영 테이블을 분석한 결과, 데이터 엔지니어는 중복 레코드의 event_timestamp 열 시간 차이가 최대 30분임을 발견했습니다.
중복을 제거하기 위해 엔지니어는 다음 코드를 추가합니다.
df = df.withWatermark("이벤트_타임스탬프", "30분")
결과는 어떻게 되나요?

A. 언제 도착하든 모든 중복 항목을 제거합니다.

B. 몇 초 안에 워터마크를 받아들이고 코드에서 오류가 발생합니다.

C. 워터마크로 지정된 30분 창 내에 도착한 중복을 제거합니다.

D. 이 시나리오에서는 중복 제거를 처리할 수 없습니다.

Associate-Developer-Apache-Spark-3.5 문제 2

데이터 엔지니어가 주문 정보가 포함된 대용량 JSON 데이터 세트를 처리하고 있습니다. 이 데이터 세트는 분산 파일 시스템에 저장되어 있으며 분석을 위해 Spark DataFrame에 로드해야 합니다. 데이터 엔지니어는 스키마가 올바르게 정의되어 있고 데이터가 효율적으로 읽히는지 확인하고자 합니다.
데이터 과학자는 사전 정의된 스키마를 사용하여 JSON 데이터를 Spark DataFrame에 효율적으로 로드하기 위해 어떤 접근 방식을 사용해야 할까요?

A. spark.read.json()을 사용하여 데이터를 로드한 다음, DataFrame.printSchema()를 사용하여 추론된 스키마를 보고 마지막으로 DataFrame.cast()를 사용하여 열 유형을 수정합니다.

B. inferSchema 옵션을 true로 설정하여 spark.read.json()을 사용합니다.

C. spark.read.format("json").load()를 사용한 다음 DataFrame.withColumn()을 사용하여 각 열을 원하는 데이터 유형으로 캐스팅합니다.

D. StructType 스키마를 정의하고 spark.read.schema(predefinedSchema).json()을 사용하여 데이터를 로드합니다.

Associate-Developer-Apache-Spark-3.5 문제 3

데이터 과학자가 대량의 정형 데이터 처리, SQL 쿼리 수행, 머신 러닝 알고리즘 적용이 필요한 프로젝트를 진행하고 있습니다. 이 데이터 과학자는 이 작업에 Apache Spark 사용을 고려하고 있습니다.
이 시나리오에서 데이터 과학자는 어떤 Apache Spark 모듈 조합을 사용해야 할까요?
옵션:

A. Spark DataFrames, 구조화된 스트리밍 및 GraphX

B. Spark SQL, Spark의 Pandas API 및 구조화된 스트리밍

C. Spark의 Spark Streaming, GraphX 및 Pandas API

D. Spark DataFrames, Spark SQL 및 MLlib

Associate-Developer-Apache-Spark-3.5 문제 4

데이터 엔지니어는 브로드캐스트 변수를 사용하여 조회 목적으로 수백만 개의 행을 포함하는 DataFrame을 여러 실행자 간에 공유합니다. 결과는 어떻게 될까요?

A. 각 실행기의 메모리가 브로드캐스트되는 DataFrame을 수용할 만큼 크지 않으면 작업이 실패할 수 있습니다.

B. 실행자가 브로드캐스트된 데이터 세트를 처리할 만큼 충분한 CPU 코어를 갖고 있지 않으면 작업이 실패할 수 있습니다.

C. Spark가 이렇게 큰 브로드캐스트 변수를 모든 실행자에게 배포하고 직렬화하는 데 어려움을 겪기 때문에 작업이 무기한 중단됩니다.

D. 드라이버에 대용량 DataFrame을 직렬화할 CPU 코어가 충분하지 않아 작업이 실패할 수 있습니다.

Associate-Developer-Apache-Spark-3.5 문제 5

아래 코드 블록에서 aggDF는 스트리밍 DataFrame에 대한 집계를 포함합니다.

각 트리거 실행 중에 전체 결과 테이블이 콘솔에 기록되도록 보장하는 3번째 줄의 출력 모드는 무엇입니까?

A. 완료

B. 추가

C. 바꾸기

D. 집계

최근 업로드: 172ACAMS.CAMS.v2026-01-15.q822; 138Microsoft.GH-300.v2026-01-15.q65; 123NACE.NACE-CIP1-001.v2026-01-15.q34; 156Salesforce.MCE-Admn-201.v2026-01-14.q54; 155Salesforce.MC-101.v2026-01-14.q41; 162Google.Professional-Cloud-Architect.v2026-01-14.q101; 140RUCKUS.RCWA.v2026-01-14.q48; 137SOCRA.CCRP.v2026-01-14.q43; 130CompTIA.FC0-U71.v2026-01-13.q88; 190APICS.CPIM.v2026-01-13.q161