Associate-Developer-Apache-Spark-3.5 문제 66
데이터 과학자가 사용자 프로필 테이블의 일부 레코드의 모든 필드에 null 값이 포함되어 있음을 확인했으며, 이러한 레코드는 처리 전에 데이터세트에서 제거해야 합니다. 스키마에는 user_id, username, date_of_birth, created_ts 등의 필드가 포함되어 있습니다.
사용자 프로필 테이블의 스키마는 다음과 같습니다.

이 요구 사항을 달성하는 데 사용할 수 있는 Spark 코드 블록은 무엇입니까?
옵션:
사용자 프로필 테이블의 스키마는 다음과 같습니다.

이 요구 사항을 달성하는 데 사용할 수 있는 Spark 코드 블록은 무엇입니까?
옵션:
Associate-Developer-Apache-Spark-3.5 문제 67
Spark 애플리케이션은 과도한 분할로 인해 작은 작업이 너무 많아 문제가 발생합니다. 전체 셔플링 없이 이 문제를 어떻게 해결할 수 있을까요?
옵션:
옵션:
Associate-Developer-Apache-Spark-3.5 문제 68
55개 중 44개.
데이터 엔지니어는 Spark Structured Streaming을 사용하여 실시간 분석 파이프라인을 개발하고 있습니다.
그들은 시스템이 5초의 고정 간격으로 들어오는 데이터를 마이크로 배치로 처리하기를 원합니다.
어떤 코드 조각이 이 요구 사항을 충족합니까?
데이터 엔지니어는 Spark Structured Streaming을 사용하여 실시간 분석 파이프라인을 개발하고 있습니다.
그들은 시스템이 5초의 고정 간격으로 들어오는 데이터를 마이크로 배치로 처리하기를 원합니다.
어떤 코드 조각이 이 요구 사항을 충족합니까?
Associate-Developer-Apache-Spark-3.5 문제 69
55개 중 33개.
데이터 엔지니어링 팀은 거래 시스템에서 데이터를 추출하는 파이프라인을 만들었습니다.
거래 시스템은 UTC로 타임스탬프를 저장하고, 데이터 엔지니어는 이제 보고를 위해 transaction_datetime 필드를 "America/New_York" 시간대로 변환해야 합니다.
타임스탬프를 대상 시간대로 변환하려면 어떤 코드를 사용해야 합니까?
데이터 엔지니어링 팀은 거래 시스템에서 데이터를 추출하는 파이프라인을 만들었습니다.
거래 시스템은 UTC로 타임스탬프를 저장하고, 데이터 엔지니어는 이제 보고를 위해 transaction_datetime 필드를 "America/New_York" 시간대로 변환해야 합니다.
타임스탬프를 대상 시간대로 변환하려면 어떤 코드를 사용해야 합니까?
Associate-Developer-Apache-Spark-3.5 문제 70
Spark 개발자가 작업 성능을 모니터링하는 앱을 개발하고 있습니다. 작업자 노드당 최대 작업 처리 시간을 추적하고 분석을 위해 드라이버에 통합해야 합니다.
어떤 기술을 사용해야 하나요?
어떤 기술을 사용해야 하나요?
