Associate-Developer-Apache-Spark-3.5 문제 46

데이터 엔지니어는 국가별로 분할된 Parquet 파일에 DataFramedf를 작성하고 대상 경로에 있는 기존 데이터를 덮어써야 합니다.
Apache Spark에서 이 작업을 완료하려면 데이터 엔지니어가 어떤 코드를 사용해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 47

데이터 엔지니어는 업스트림 스트리밍 소스에서 중복 레코드를 전송하는 것을 발견했습니다. 중복 레코드는 동일한 키를 공유하며 event_timestamp에서 최대 30분 차이가 납니다. 엔지니어는 다음과 같이 덧붙였습니다.
dropDuplicatesWithinWatermark("event_timestamp", "30분")
결과는 어떻게 되나요?

Associate-Developer-Apache-Spark-3.5 문제 48

Spark 클러스터와의 원격 상호작용을 가능하게 하는 애플리케이션을 설계할 때 Spark Connect의 어떤 기능이 고려됩니까?

Associate-Developer-Apache-Spark-3.5 문제 49

55개 중 47개.
데이터 엔지니어는 두 개의 DataFrames df1과 df2를 결합하기 위해 다음 코드를 작성했습니다.
df1 = spark.read.csv("판매_데이터.csv")
df2 = spark.read.csv("제품_데이터.csv")
df_joined = df1.join(df2, df1.제품_id == df2.제품_id)
DataFrame df1에는 약 10GB의 판매 데이터가 포함되어 있고, df2에는 약 8MB의 제품 데이터가 포함되어 있습니다.
Spark는 어떤 조인 전략을 사용할 것인가?

Associate-Developer-Apache-Spark-3.5 문제 50

55개 중 16개.
데이터 엔지니어가 DataFrame에 여러 변환을 적용하는 Spark 애플리케이션을 검토하고 있지만 작업이 즉시 실행되지 않는다는 점을 발견했습니다.
Apache Spark 실행 모델의 어떤 두 가지 특성이 이러한 동작을 설명합니까? (답변 2개 선택)