“sparkContext was shut down” while running hail/pyspark on a large dataset

shuang · July 31, 2020, 6:16am

Hi, Thanks Tim, for this task we plan to use Hail0.1.
If you have some idea for this, I really appreciate your help. I found a similar question in forum but no answer yet.

I use the same setting deal just (chr11-20), succeed. data size is around 1/3 of my whole dataset.

Then I try to handle whole dataset. I increase driver.mem to 600g, spark.driver.maxResultSize=180g, master node –master-machine-type n1-highmem-96, –worker-machine-type n1-highmem-32, it still report error. at stage2, finished half of work (30000 out of 60000).

Topic		Replies	Views
SparkContext shutting down Help [0.1]	1	1594	July 2, 2018
SparkContext: INFO: Invoking stop() from shutdown hook Help [0.1]	3	7116	September 23, 2017
Dataproc error: java.io.IOException: Failed to create local dir Hail Query & hailctl	3	3022	August 29, 2018
Import_vcf() for tutorial data fails Help [0.1]	2	1304	May 3, 2017
Large scale ingest Hail Query & hailctl	7	694	April 8, 2019

“sparkContext was shut down” while running hail/pyspark on a large dataset

Related topics