Associate-Developer-Apache-Spark-3.5 문제 66

데이터 과학자가 사용자 프로필 테이블의 일부 레코드의 모든 필드에 null 값이 포함되어 있음을 확인했으며, 이러한 레코드는 처리 전에 데이터세트에서 제거해야 합니다. 스키마에는 user_id, username, date_of_birth, created_ts 등의 필드가 포함되어 있습니다.
사용자 프로필 테이블의 스키마는 다음과 같습니다.

이 요구 사항을 달성하는 데 사용할 수 있는 Spark 코드 블록은 무엇입니까?
옵션:

Associate-Developer-Apache-Spark-3.5 문제 67

Spark 애플리케이션은 과도한 분할로 인해 작은 작업이 너무 많아 문제가 발생합니다. 전체 셔플링 없이 이 문제를 어떻게 해결할 수 있을까요?
옵션:

Associate-Developer-Apache-Spark-3.5 문제 68

55개 중 44개.
데이터 엔지니어는 Spark Structured Streaming을 사용하여 실시간 분석 파이프라인을 개발하고 있습니다.
그들은 시스템이 5초의 고정 간격으로 들어오는 데이터를 마이크로 배치로 처리하기를 원합니다.
어떤 코드 조각이 이 요구 사항을 충족합니까?

Associate-Developer-Apache-Spark-3.5 문제 69

55개 중 33개.
데이터 엔지니어링 팀은 거래 시스템에서 데이터를 추출하는 파이프라인을 만들었습니다.
거래 시스템은 UTC로 타임스탬프를 저장하고, 데이터 엔지니어는 이제 보고를 위해 transaction_datetime 필드를 "America/New_York" 시간대로 변환해야 합니다.
타임스탬프를 대상 시간대로 변환하려면 어떤 코드를 사용해야 합니까?

Associate-Developer-Apache-Spark-3.5 문제 70

Spark 개발자가 작업 성능을 모니터링하는 앱을 개발하고 있습니다. 작업자 노드당 최대 작업 처리 시간을 추적하고 분석을 위해 드라이버에 통합해야 합니다.
어떤 기술을 사용해야 하나요?