Associate-Developer-Apache-Spark-3.5 문제 21

55개 중 40개.
개발자는 Spark 3.5에 도입된 기본 제공 함수를 활용하기 위해 기존 Spark 코드를 리팩토링하려고 합니다.
원래 코드:
pyspark.sql에서 함수를 F로 가져오기
최소가격 = 110.50
result_df = prices_df.filter(F.col("price") > min_price).agg(F.count("*")) 개발자는 어떤 코드 블록을 사용하여 코드를 리팩토링해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 22

Spark 개발자는 표준 Spark 함수 라이브러리에서 사용할 수 없는 해시 함수를 실행하는 기존 PySpark UDF의 성능을 개선하고자 합니다. 기존 UDF 코드는 다음과 같습니다.

hashlib 가져오기
pyspark.sql.functions를 sf로 가져오기
pyspark.sql.types에서 StringType 가져오기
def shake_256(원시):
hashlib.shake_256(raw.encode()).hexdigest(20)을 반환합니다.
shake_256_udf = sf.udf(shake_256, StringType())
개발자는 성능 향상을 위해 기존 UDF를 Pandas UDF로 대체하려고 합니다. 개발자는 shake_256_udf의 정의를 다음과 같이 변경합니다. CopyEdit shake_256_udf = sf.pandas_udf(shake_256, StringType()) 하지만 개발자는 다음과 같은 오류를 받습니다.
이 오류를 해결하려면 shake_256() 함수의 서명을 어떻게 변경해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 23

Spark 클러스터와의 원격 상호작용을 가능하게 하는 애플리케이션을 설계할 때 Spark Connect의 어떤 기능이 고려됩니까?

Associate-Developer-Apache-Spark-3.5 문제 24

55개 중 43개.
어떤 조직에서는 프로덕션 환경에서 Spark 애플리케이션을 실행하고 있으며 리소스 사용량을 줄이기 위해 Spark History Server를 비활성화하는 것을 고려하고 있습니다.
프로덕션 환경에서 Spark History Server를 비활성화하면 어떤 영향이 있을까요?

Associate-Developer-Apache-Spark-3.5 문제 25

데이터 과학자는 고객 정보가 포함된 customerDF라는 Spark DataFrame을 사용하고 있습니다.
DataFrame에는 고객 이메일 주소가 포함된 email이라는 열이 있습니다. 데이터 과학자는 이 열을 사용자 이름과 도메인 부분으로 분할해야 합니다.
어떤 코드 조각이 이메일 열을 사용자 이름과 도메인 열로 분할합니까?