我有一个执行火花流作业的AWS EMR集群。它从Kinesis流中获取流数据并进行处理。它可以正常工作几天,但是12-15天后群集将自动终止。我检查了事件标签,它显示 集群由于错误而终止,原因是STEP_FAILURE。
任何人都知道为什么成功运行了几天后为什么会出现步失败?
转到EMR控制台,然后检查step选项。如果设置如下:
Action on failure:Terminate cluster
然后,当步骤失败时,群集将终止。