Associate-Developer-Apache-Spark-3.5 문제 31

다음 코드 조각은 오류를 발생시킵니다.
@F.udf(T.정수형())
def simple_udf(t: str) -> str:
답변 반환 * 3.14159
대신 어떤 코드 조각을 사용해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 32

55개 중 28개.
데이터 분석가는 재무 데이터를 분석하는 Spark 애플리케이션을 구축하고 다음과 같은 작업을 수행합니다.
필터링, 선택, 그룹화 및 병합.
어떤 연산이 셔플을 발생시키나요?

Associate-Developer-Apache-Spark-3.5 문제 33

55개 중 19개.
Spark 개발자는 표준 Spark 함수 라이브러리에서 사용할 수 없는 해시 함수를 실행하는 기존 PySpark UDF의 성능을 개선하려고 합니다.
기존 UDF 코드는 다음과 같습니다.
hashlib 가져오기
pyspark.sql.types에서 StringType 가져오기
def shake_256(원시):
hashlib.shake_256(raw.encode()).hexdigest(20)을 반환합니다.
shake_256_udf = udf(shake_256, StringType())
개발자는 더 나은 성능을 위해 이 UDF를 Pandas UDF로 교체했습니다.
@pandas_udf(문자열 유형())
def shake_256(원시: str) -> str:
hashlib.shake_256(raw.encode()).hexdigest(20)을 반환합니다.
하지만 개발자는 다음과 같은 오류를 받습니다.
TypeError: 지원되지 않는 서명: (raw: str) -> str
이 오류를 해결하려면 shake_256() 함수의 서명을 어떻게 변경해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 34

55개 중 15개.
데이터 엔지니어는 다음 스트리밍 데이터를 사용하여 스트리밍 데이터 프레임(streaming_df)을 작업하고 있습니다.
ID
이름
세다
타임스탬프
1
델리
20
2024-09-19T10:11
1
델리
50
2024-09-19T10:12
2
런던
50
2024-09-19T10:15
3
파리
30
2024-09-19T10:18
3
파리
20
2024-09-19T10:20
4
워싱턴
10
2024-09-19T10:22
streaming_df에서는 어떤 작업이 지원되나요?

Associate-Developer-Apache-Spark-3.5 문제 35

55개 중 18개.
엔지니어는 두 개의 DataFrame, 즉 df1(작은 크기)과 df2(큰 크기)를 가지고 있습니다. 조인을 최적화하기 위해 엔지니어는 브로드캐스트 조인을 사용합니다.
pyspark.sql.functions에서 브로드캐스트 가져오기
df_result = df2.join(df1에 브로드캐스트, on="id", how="inner")
이 시나리오에서 broadcast()를 사용하는 목적은 무엇입니까?