Q: 在讀取文件的時候碍遍,如何忽略空 gzip 文件?
A: 從 Spark 2.1 開始噪叙,你可以通過啟用 spark.sql.files.ignoreCorruptFiles
選項來忽略損毀的文件豺旬。可以將下面的選項添加到你的 spark-submit
或者 pyspark
命令中柒凉。
--conf spark.sql.files.ignoreCorruptFiles=true
另外 spark支持的選項可以通過在spark-shell中輸入下面的命令查看
scala> sql("SET -v").show(200, false)
參考 # Spark - how to skip or ignore empty gzip files when reading