SPARK configuration

  • spark.dynamicAllocation.enabled
  • spark.dynamicAllocation.initialExecutors
  • spark.dynamicAllocation.minExecutors
  • spark.dynamicAllocation.maxExecutors
  • spark.shuffle.partitions
  • spark.default.parallelism = spark.executor.instances * spark.executor.cores * 2
  • maxPartitionBytes
  • Input bytes = 40 GB? Wähle so viele Partitions, so dass die Größe einer Partition <= 200 MB ist. Dann multipliziere mit der Anzahl der Cores. Aber mit welcher Zahl – mit der Zahl der Cores pro Executor?
  • https://nealanalytics.com/blog/databricks-spark-jobs-optimization-techniques-shuffle-partition-technique-part-1/
  • Aber ich dachte, man kann pro executor nur eine Partition bearbeiten

Was this helpful?

0 / 0

Cookie Consent with Real Cookie Banner