Associate-Developer-Apache-Spark-3.5 문제 1
55개 중 3개. 데이터 엔지니어는 업스트림 스트리밍 소스가 이벤트 테이블에 자주 데이터를 공급하고 중복 레코드를 전송하는 것을 발견했습니다. 현재 운영 테이블을 분석한 결과, 데이터 엔지니어는 중복 레코드의 event_timestamp 열 시간 차이가 최대 30분임을 발견했습니다.
중복을 제거하기 위해 엔지니어는 다음 코드를 추가합니다.
df = df.withWatermark("이벤트_타임스탬프", "30분")
결과는 어떻게 되나요?
중복을 제거하기 위해 엔지니어는 다음 코드를 추가합니다.
df = df.withWatermark("이벤트_타임스탬프", "30분")
결과는 어떻게 되나요?
Associate-Developer-Apache-Spark-3.5 문제 2
데이터 엔지니어가 주문 정보가 포함된 대용량 JSON 데이터 세트를 처리하고 있습니다. 이 데이터 세트는 분산 파일 시스템에 저장되어 있으며 분석을 위해 Spark DataFrame에 로드해야 합니다. 데이터 엔지니어는 스키마가 올바르게 정의되어 있고 데이터가 효율적으로 읽히는지 확인하고자 합니다.
데이터 과학자는 사전 정의된 스키마를 사용하여 JSON 데이터를 Spark DataFrame에 효율적으로 로드하기 위해 어떤 접근 방식을 사용해야 할까요?
데이터 과학자는 사전 정의된 스키마를 사용하여 JSON 데이터를 Spark DataFrame에 효율적으로 로드하기 위해 어떤 접근 방식을 사용해야 할까요?
Associate-Developer-Apache-Spark-3.5 문제 3
데이터 과학자가 대량의 정형 데이터 처리, SQL 쿼리 수행, 머신 러닝 알고리즘 적용이 필요한 프로젝트를 진행하고 있습니다. 이 데이터 과학자는 이 작업에 Apache Spark 사용을 고려하고 있습니다.
이 시나리오에서 데이터 과학자는 어떤 Apache Spark 모듈 조합을 사용해야 할까요?
옵션:
이 시나리오에서 데이터 과학자는 어떤 Apache Spark 모듈 조합을 사용해야 할까요?
옵션:
Associate-Developer-Apache-Spark-3.5 문제 4
데이터 엔지니어는 브로드캐스트 변수를 사용하여 조회 목적으로 수백만 개의 행을 포함하는 DataFrame을 여러 실행자 간에 공유합니다. 결과는 어떻게 될까요?
Associate-Developer-Apache-Spark-3.5 문제 5
아래 코드 블록에서 aggDF는 스트리밍 DataFrame에 대한 집계를 포함합니다.

각 트리거 실행 중에 전체 결과 테이블이 콘솔에 기록되도록 보장하는 3번째 줄의 출력 모드는 무엇입니까?

각 트리거 실행 중에 전체 결과 테이블이 콘솔에 기록되도록 보장하는 3번째 줄의 출력 모드는 무엇입니까?
