Associate-Developer-Apache-Spark-3.5 문제 51

Spark 애플리케이션 개발자는 어떤 작업이 셔플링을 일으키는지 식별하여 Spark 실행 계획의 새로운 단계로 이어지도록 하려고 합니다.
어떤 연산을 하면 셔플이 발생하고 새로운 스테이지가 시작되나요?

Associate-Developer-Apache-Spark-3.5 문제 52

55개 중 48개.
데이터 엔지니어는 여러 DataFrame을 결합해야 하며 다음 코드를 작성했습니다.
pyspark.sql.functions에서 브로드캐스트 가져오기
데이터1 = [(1, "A"), (2, "B")]
데이터2 = [(1, "X"), (2, "Y")]
데이터3 = [(1, "M"), (2, "N")]
df1 = spark.createDataFrame(데이터1, ["id", "val1"])
df2 = spark.createDataFrame(데이터2, ["id", "val2"])
df3 = spark.createDataFrame(데이터3, ["id", "val3"])
df_joined = df1.join(브로드캐스트(df2), "id", "내부") \
.join(broadcast(df3), "id", "inner")
이 코드의 출력은 무엇일까요?

Associate-Developer-Apache-Spark-3.5 문제 53

my_spark_app.py에 다음 코드 조각이 있습니다.

드라이버 노드의 역할은 무엇인가요?

Associate-Developer-Apache-Spark-3.5 문제 54

한 애플리케이션 아키텍트가 조직 내에서 실행 중인 기존 Spark 애플리케이션을 현대화하는 방법으로 Spark Connect를 조사해 왔습니다.
이 조직에서 Spark Connect 도입을 방해하는 요구 사항은 무엇입니까?

Associate-Developer-Apache-Spark-3.5 문제 55

데이터 엔지니어가 주문 정보가 포함된 대용량 JSON 데이터 세트를 처리하고 있습니다. 이 데이터 세트는 분산 파일 시스템에 저장되어 있으며 분석을 위해 Spark DataFrame에 로드해야 합니다. 데이터 엔지니어는 스키마가 올바르게 정의되어 있고 데이터가 효율적으로 읽히는지 확인하고자 합니다.
데이터 과학자는 사전 정의된 스키마를 사용하여 JSON 데이터를 Spark DataFrame에 효율적으로 로드하기 위해 어떤 접근 방식을 사용해야 할까요?