在EMR上Flink JobManager HA

问题描述

堆栈 EMR:emr-6.1.0(1个主节点,4个核心节点) 已安装EMR的应用程序:FLINK 1.11.0

AWS文档说(https://docs.aws.amazon.com/emr/latest/ReleaseGuide/flink-configure.html):

Beginning with Amazon EMR version 5.28.0,JobManager high availability is also enabled automatically. No manual configuration is needed.

但是,当我向Flink Jobmanager yarn container -signal container_1601027657994_0003_01_000001 GRACEFUL_SHUTDOWN(与FORCEFUL_SHUTDOWN相同)发送杀死信号时,丝线容器没有任何反应。纱线将不会重新启动应用程序。

  1. 我还需要启用EMR Zookeeper吗? (很可能是这样,否则,我不知道flink如何理解从哪个保存点重新启动应用程序)。
  2. 我应该使用具有3个主节点的EMR群集来为Flink提供HA吗?

解决方法

是的,要拥有JobManager HA,您需要具有3个主节点的EMR,然后emr会自动将故障转移配置添加到flink-conf.yaml中(已通过EMR 6.1.0测试)