설명 누산기를 포함한 작업이 실행 중에 실패하고 Spark가 작업을 다시 시작하고 성공적으로 완료하면 성공한 시도만 누산기에 계산됩니다. 맞습니다. Spark가 누산기를 포함하는 실패한 작업을 다시 실행하려고 하면 작업이 성공한 경우에만 누산기를 업데이트합니다. 누산기는 불변입니다. 아니요. 누산기는 실행기에 대해 쓰기 전용 변수처럼 작동하고 드라이버에서만 읽을 수 있지만 변경할 수 없습니다. Spark 애플리케이션에서 사용되는 모든 누산기는 Spark UI에 나열됩니다. 잘못된. Scala의 경우 이름만 지정되고 이름이 지정되지 않은 누산기는 Spark UI에 나열됩니다. pySpark의 경우 Spark UI에 누산기가 나열되지 않습니다. 이 기능은 아직 구현되지 않았습니다. 누산기는 클러스터 전체에서 조회 테이블을 전달하는 데 사용됩니다. 잘못된 - 이것이 브로드캐스트 변수가 하는 일입니다. 누산기는 pyspark.RDD 모듈의 accumulator(n) 메서드를 통해 직접 인스턴스화할 수 있습니다. 잘못되었습니다. accumulator는 sparkContext의 accumulator(n) 메서드를 통해 인스턴스화됩니다. 예를 들면 다음과 같습니다. = spark.sparkContext.accumulator(0). 추가 정보: python - Spark에서 RDD는 변경할 수 없습니다. 그렇다면 누산기는 어떻게 구현됩니까? - 스택 오버플로, 아파치 스파크 - 어큐뮬레이터는 언제 진정으로 신뢰할 수 있습니까? - Stack Overflow, Spark - 최종 가이드, 14장