当对运行Yarn Resource Manager的节点进行网络分区时,将杀死所有samza容器

问题描述

我们正在运行一个3节点群集,并且使用hadoop 2.6,并且YARN Resource Manager(RM)为HA。当我们对RM处于活动状态的节点进行网络划分时,我们观察到处于待机状态的RM进入活动模式,但是,所有samza容器都在所有节点上死亡,并被重新创建。我们确保不要在网络分区节点上运行作业协调器。

假设 N1(节点1)正在运行备用RM。 N2正在运行活动RM。 N3正在运行工作协调器。

我们在N1和N3上运行以下命令以进行网络分区 sudo路由添加-host 拒绝

,这在N2上 sudo路由添加-host 拒绝&& sudo路由添加-host 拒绝

这些命令同时在所有三个节点上运行。

我的问题是为什么旧的容器被杀死并重新创建。

节点管理器日志:

2020-10-07 10:38:36,985信息org.apache.hadoop.yarn.server.nodemanager.containermanager.container.ContainerImpl:容器container_e02_1602050235280_0001_01_000004从“运行”转换为“杀死”

020-10-07 10:38:35,971警告org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl:无法通过appId = application_1601919334597_0001获取RMApp,只是将其添加到finishApplications列表中进行清理 2020-10-07 10:38:38,290信息org.apache.hadoop.yarn.server.resourcemanager.scheduler.AbstractYarnScheduler:容器container_e02_1602050235280_0001_01_000004完成并带有事件FINISHED,但相应的RMContainer不存在。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...