如何清理Spark结构化流中累积的检查点文件?

问题描述

我为SparkContext添加了检查点,并为长期的Spark结构化流作业编写了针对kafka数据流的查询

.grid { 
    max-width: 1900px // Or whatever 
}

火花作业稳定运行。但是,我注意到检查点文件是在HDFS和S3中累积的,没有自动清理。我看到这些文件不断地耗尽存储空间。有什么方法可以配置这些检查点文件的保留时间,以使其自动删除吗?还是我需要运行某些cron作业以手动将其删除?如果手动删除它们,是否会影响正在进行的火花作业?谢谢!

解决方法

spark.cleaner.referenceTracking.cleanCheckpoints需要设置为true,默认为false。