问题描述
我有一份工作,使用flink摄取数据并通过镶木地板将文件格式发送到HDFS,因为我在Flink中使用streamFileSink,只有检查点成功,文件才会完成。我想知道应该多长时间设置为checkpoit,可以参考什么样的参数?
解决方法
检查点间隔将确定
- 如果发生故障,可能必须重新处理多少数据。
- 流式传输文件接收器写入多条木地板输出文件的频率(与并行性一起,将影响它们的大小)。
考虑到您对更长的恢复时间的容忍度,对于等待这些文件完成的其他进程以及更大的输出文件的延迟,请选择任何有意义的方法。
检查点也给群集增加了一些开销。更频繁的检查点将影响性能。