- spark.dynamicAllocation.enabled
- spark.dynamicAllocation.initialExecutors
- spark.dynamicAllocation.minExecutors
- spark.dynamicAllocation.maxExecutors
- spark.shuffle.partitions
- spark.default.parallelism = spark.executor.instances * spark.executor.cores * 2
- maxPartitionBytes
- Input bytes = 40 GB? Wähle so viele Partitions, so dass die Größe einer Partition <= 200 MB ist. Dann multipliziere mit der Anzahl der Cores. Aber mit welcher Zahl – mit der Zahl der Cores pro Executor?
- https://nealanalytics.com/blog/databricks-spark-jobs-optimization-techniques-shuffle-partition-technique-part-1/
- Aber ich dachte, man kann pro executor nur eine Partition bearbeiten
Was this helpful?
0 / 0