무료 온라인 액세스 Databricks.Associate-Developer-Apache-Spark-3.5.v2025-11-27.q71 모의 시험 (Page 8)

Associate-Developer-Apache-Spark-3.5 문제 31

다음 코드 조각은 오류를 발생시킵니다.
@F.udf(T.정수형())
def simple_udf(t: str) -> str:
답변 반환 * 3.14159
대신 어떤 코드 조각을 사용해야 합니까?

A. @F.udf(T.IntegerType())
def simple_udf(t: int) -> int:
t * 3.14159를 반환합니다.

B. @F.udf(T.DoubleType())
def simple_udf(t: float) -> float:
t * 3.14159를 반환합니다.

C. @F.udf(T.DoubleType())
def simple_udf(t: int) -> int:
t * 3.14159를 반환합니다.

D. @F.udf(T.IntegerType())
def simple_udf(t: float) -> float:
t * 3.14159를 반환합니다.

Associate-Developer-Apache-Spark-3.5 문제 32

55개 중 28개.
데이터 분석가는 재무 데이터를 분석하는 Spark 애플리케이션을 구축하고 다음과 같은 작업을 수행합니다.
필터링, 선택, 그룹화 및 병합.
어떤 연산이 셔플을 발생시키나요?

A. 필터

B. 선택

C. 그룹화 기준

D. 합체하다

Associate-Developer-Apache-Spark-3.5 문제 33

55개 중 19개.
Spark 개발자는 표준 Spark 함수 라이브러리에서 사용할 수 없는 해시 함수를 실행하는 기존 PySpark UDF의 성능을 개선하려고 합니다.
기존 UDF 코드는 다음과 같습니다.
hashlib 가져오기
pyspark.sql.types에서 StringType 가져오기
def shake_256(원시):
hashlib.shake_256(raw.encode()).hexdigest(20)을 반환합니다.
shake_256_udf = udf(shake_256, StringType())
개발자는 더 나은 성능을 위해 이 UDF를 Pandas UDF로 교체했습니다.
@pandas_udf(문자열 유형())
def shake_256(원시: str) -> str:
hashlib.shake_256(raw.encode()).hexdigest(20)을 반환합니다.
하지만 개발자는 다음과 같은 오류를 받습니다.
TypeError: 지원되지 않는 서명: (raw: str) -> str
이 오류를 해결하려면 shake_256() 함수의 서명을 어떻게 변경해야 합니까?

A. def shake_256(원시: str) -> str:

B. def shake_256(raw: [pd.시리즈]) -> pd.시리즈:

C. def shake_256(raw: pd.Series) -> pd.Series:

D. def shake_256(원시: [str]) -> [str]:

Associate-Developer-Apache-Spark-3.5 문제 34

55개 중 15개.
데이터 엔지니어는 다음 스트리밍 데이터를 사용하여 스트리밍 데이터 프레임(streaming_df)을 작업하고 있습니다.
ID
이름
세다
타임스탬프
1
델리
20
2024-09-19T10:11
1
델리
50
2024-09-19T10:12
2
런던
50
2024-09-19T10:15
3
파리
30
2024-09-19T10:18
3
파리
20
2024-09-19T10:20
4
워싱턴
10
2024-09-19T10:22
streaming_df에서는 어떤 작업이 지원되나요?

A. 스트리밍_df.count()

B. streaming_df.filter("count < 30")

C. streaming_df.select(countDistinct("이름"))

D. 스트리밍_df.show()

Associate-Developer-Apache-Spark-3.5 문제 35

55개 중 18개.
엔지니어는 두 개의 DataFrame, 즉 df1(작은 크기)과 df2(큰 크기)를 가지고 있습니다. 조인을 최적화하기 위해 엔지니어는 브로드캐스트 조인을 사용합니다.
pyspark.sql.functions에서 브로드캐스트 가져오기
df_result = df2.join(df1에 브로드캐스트, on="id", how="inner")
이 시나리오에서 broadcast()를 사용하는 목적은 무엇입니까?

A. df1과 df2의 파티션 크기를 늘립니다.

B. ID 값이 동일한 경우에만 조인이 발생하도록 보장합니다.

C. 더 작은 DataFrame을 모든 노드에 복제하여 셔플 작업의 수를 줄입니다.

D. 조인을 수행하기 전에 id 값을 필터링합니다.

최근 업로드: 185ACAMS.CAMS.v2026-01-15.q822; 140Microsoft.GH-300.v2026-01-15.q65; 123NACE.NACE-CIP1-001.v2026-01-15.q34; 156Salesforce.MCE-Admn-201.v2026-01-14.q54; 155Salesforce.MC-101.v2026-01-14.q41; 162Google.Professional-Cloud-Architect.v2026-01-14.q101; 140RUCKUS.RCWA.v2026-01-14.q48; 137SOCRA.CCRP.v2026-01-14.q43; 130CompTIA.FC0-U71.v2026-01-13.q88; 190APICS.CPIM.v2026-01-13.q161