问题描述
我为SparkContext添加了检查点,并为长期的Spark结构化流作业编写了针对kafka数据流的查询。
.grid {
max-width: 1900px // Or whatever
}
火花作业稳定运行。但是,我注意到检查点文件是在HDFS和S3中累积的,没有自动清理。我看到这些文件不断地耗尽存储空间。有什么方法可以配置这些检查点文件的保留时间,以使其自动删除吗?还是我需要运行某些cron作业以手动将其删除?如果手动删除它们,是否会影响正在进行的火花作业?谢谢!
解决方法
spark.cleaner.referenceTracking.cleanCheckpoints
需要设置为true,默认为false。