Associate-Developer-Apache-Spark-3.5 문제 26

데이터 엔지니어는 두 개의 DataFrames df1과 df2를 결합하기 위해 다음 코드를 작성합니다.
df1 = spark.read.csv("sales_data.csv") # ~10GB
df2 = spark.read.csv("제품_데이터.csv") # ~8MB
결과 = df1.join(df2, df1.product_id == df2.product_id)

Spark는 어떤 조인 전략을 사용할 것인가?

Associate-Developer-Apache-Spark-3.5 문제 27

Spark 엔지니어가 실행 중 메모리 부족 오류가 발생하는 Spark 애플리케이션의 문제를 해결하고 있습니다. Spark 드라이버 로그를 검토한 결과, 엔지니어는 여러 개의 "GC 오버헤드 한도를 초과했습니다"라는 메시지를 발견했습니다.
이 문제를 해결하기 위해 엔지니어는 어떤 조치를 취해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 28

데이터 엔지니어가 새로운 관리형 테이블을 생성하는 Spark 작업을 작성하려고 합니다. 테이블이 이미 존재하는 경우 작업은 실패하고 아무것도 수정하지 않아야 합니다.
어떤 저장 모드와 방법을 사용해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 29

데이터 엔지니어는 Parquet 파일로 스트리밍 데이터프레임을 작성해야 합니다.
주어진 코드:

요구 사항을 충족하려면 어떤 코드 조각을 삽입해야 합니까?
에이)

비)

기음)

디)

요구 사항을 충족하려면 어떤 코드 조각을 삽입해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 30

실행기에서 병렬로 실행할 수 있는 작업 수를 제어하는 ​​Spark 구성은 무엇입니까?
옵션: