SPARK configuration

  • spark.dynamicAllocation.enabled
  • spark.dynamicAllocation.initialExecutors
  • spark.dynamicAllocation.minExecutors
  • spark.dynamicAllocation.maxExecutors
  • spark.shuffle.partitions
  • spark.default.parallelism = spark.executor.instances * spark.executor.cores * 2
  • maxPartitionBytes
  • Input bytes = 40 GB? Wähle so viele Partitions, so dass die Größe einer Partition <= 200 MB ist. Dann multipliziere mit der Anzahl der Cores. Aber mit welcher Zahl – mit der Zahl der Cores pro Executor?
  • https://nealanalytics.com/blog/databricks-spark-jobs-optimization-techniques-shuffle-partition-technique-part-1/
  • Aber ich dachte, man kann pro executor nur eine Partition bearbeiten

Discover more from Master the Math

Subscribe to get the latest posts sent to your email.

Scroll to Top
Cookie Consent with Real Cookie Banner