Associate-Developer-Apache-Spark-3.5 문제 26
데이터 엔지니어는 두 개의 DataFrames df1과 df2를 결합하기 위해 다음 코드를 작성합니다.
df1 = spark.read.csv("sales_data.csv") # ~10GB
df2 = spark.read.csv("제품_데이터.csv") # ~8MB
결과 = df1.join(df2, df1.product_id == df2.product_id)

Spark는 어떤 조인 전략을 사용할 것인가?
df1 = spark.read.csv("sales_data.csv") # ~10GB
df2 = spark.read.csv("제품_데이터.csv") # ~8MB
결과 = df1.join(df2, df1.product_id == df2.product_id)

Spark는 어떤 조인 전략을 사용할 것인가?
Associate-Developer-Apache-Spark-3.5 문제 27
Spark 엔지니어가 실행 중 메모리 부족 오류가 발생하는 Spark 애플리케이션의 문제를 해결하고 있습니다. Spark 드라이버 로그를 검토한 결과, 엔지니어는 여러 개의 "GC 오버헤드 한도를 초과했습니다"라는 메시지를 발견했습니다.
이 문제를 해결하기 위해 엔지니어는 어떤 조치를 취해야 합니까?
이 문제를 해결하기 위해 엔지니어는 어떤 조치를 취해야 합니까?
Associate-Developer-Apache-Spark-3.5 문제 28
데이터 엔지니어가 새로운 관리형 테이블을 생성하는 Spark 작업을 작성하려고 합니다. 테이블이 이미 존재하는 경우 작업은 실패하고 아무것도 수정하지 않아야 합니다.
어떤 저장 모드와 방법을 사용해야 합니까?
어떤 저장 모드와 방법을 사용해야 합니까?
Associate-Developer-Apache-Spark-3.5 문제 29
데이터 엔지니어는 Parquet 파일로 스트리밍 데이터프레임을 작성해야 합니다.
주어진 코드:

요구 사항을 충족하려면 어떤 코드 조각을 삽입해야 합니까?
에이)

비)

기음)

디)

요구 사항을 충족하려면 어떤 코드 조각을 삽입해야 합니까?
주어진 코드:

요구 사항을 충족하려면 어떤 코드 조각을 삽입해야 합니까?
에이)

비)

기음)

디)

요구 사항을 충족하려면 어떤 코드 조각을 삽입해야 합니까?
Associate-Developer-Apache-Spark-3.5 문제 30
실행기에서 병렬로 실행할 수 있는 작업 수를 제어하는 Spark 구성은 무엇입니까?
옵션:
옵션:
