HDP + ambari +纱线节点标签和HDFS

问题描述

我们有Hadoop集群(具有ambari的HDP 2.6.4集群,具有5个datanodes机器)

我们正在使用Spark Streaming应用程序(在Hortonworks 2.6.x上运行spark 2.1)

当前情况是,火花流应用程序在所有datanode机器上运行

也许某些纱线节点标签知道我们可以启用火花流应用程序,使其仅在第一台 2 数据节点机器上运行

因此,例如,如果-我们在第一台 2 数据节点计算机上配置了纱线节点标签,则在其他3台数据节点计算机上,由于以下原因,火花应用程序将无法运行纱线节点标签已禁用

我的问题是-是否可以通过纱线节点标签禁用最后3个数据节点计算机上的HDFS,(以免最后3个数据节点上的HDFS)

参考-http://crazyadmins.com/configure-node-labels-on-yarn/

解决方法

您不能在数据节点上禁用HDFS。如果这样做,那么从定义上讲,它就不是HDFS的一部分,这意味着您基本上是在卸载HDFS服务并将其从群集中删除。

节点标签控制哪些NodeManager运行代码而不是DataNode。

您可能让NodeManangers在DataNodes之外运行,但这违反了使用HDFS“将计算移至数据”功能的目的,从而导致作业运行缓慢