EMR群集会在几天后自动终止

问题描述

我有一个执行火花流作业的AWS EMR集群。它从Kinesis流中获取流数据并进行处理。它可以正常工作几天,但是12-15天后群集将自动终止。我检查了事件标签,它显示 集群由于错误而终止,原因是STEP_FAILURE。

任何人都知道为什么成功运行了几天后为什么会出现步失败?

解决方法

转到EMR控制台,然后检查step选项。如果设置如下:

enter image description here

Action on failure:Terminate cluster

然后,当步骤失败时,群集将终止。