Associate-Developer-Apache-Spark-3.5 문제 11

개발자는 웹 애플리케이션의 사용자 행동 데이터가 포함된 판다스 데이터프레임을 사용하고 있습니다.
Apache Spark 3.5에서 모든 작업자에 걸쳐 병렬로 groupBy 작업을 실행하려면 어떤 접근 방식을 사용해야 합니까?
에이)
applylnPandas API를 사용하세요
비)

기음)

디)

Associate-Developer-Apache-Spark-3.5 문제 12

아래 코드 블록에서 aggDF는 스트리밍 DataFrame에 대한 집계를 포함합니다.

각 트리거 실행 중에 전체 결과 테이블이 콘솔에 기록되도록 보장하는 3번째 줄의 출력 모드는 무엇입니까?

Associate-Developer-Apache-Spark-3.5 문제 13

데이터 엔지니어는 매초 sensor_id, temperature, timestamp 열로 센서 값을 수신하는 스트리밍 DataFrame을 처리하려고 합니다. 엔지니어는 데이터가 스트리밍되는 동안 지난 5분 동안 각 센서의 평균 온도를 계산해야 합니다.
어떤 코드 구현이 요구 사항을 달성합니까?
제공된 이미지의 옵션:

Associate-Developer-Apache-Spark-3.5 문제 14

55개 중 14개.
개발자는 color, fruit, taste 열이 있는 DataFrame을 만들고 다음을 사용하여 Parquet 디렉터리에 데이터를 썼습니다.
df.write.partitionBy("색상", "맛").parquet("/경로/출력")
이 코드의 결과는 무엇입니까?

Associate-Developer-Apache-Spark-3.5 문제 15

55개 중 29개.
Spark 애플리케이션은 드라이버 리소스가 제한되어 클라이언트 모드에서 성능 문제를 겪고 있습니다.
이 문제는 어떻게 해결해야 할까요?