Spark + Mesos初始作业未接受任何资源;检查您的集群用户界面,以确保工作人员已注册并拥有足够的资源

问题描述

我在云上有一个主机,其中有3个主机和10个从机。

所有从站都处于活动状态,但在Mesos主界面中分配了0个资源:

Agents Detail Page

在主页上,我可以看到10个激活的代理,但9个无法访问:

mes

我尝试在群集上运行的作业永远卡在RUNNING状态。

Spark是否需要启动并运行(在每个从站上运行start-slave.sh)还是mesos? 怎么了?

机器上没有端口被阻塞

编辑:

启动应用程序的机器似乎可以连接到主服务器:

<script src="https://cdnjs.cloudflare.com/ajax/libs/moment.js/2.27.0/moment-with-locales.min.js" integrity="sha512-qSnlnyh7EcD3vTqRoSP4LYsy2yVuqqmnkM9tW4dWo6xvAoxuVXyM36qZK54fyCmHoY1iKi9FJAUZrlPqmGNXFw==" crossorigin="anonymous"></script>

它也尝试启动任务,但被卡住,这种行为是循环的:

enter image description here

解决方法

此问题的两种解决方案:

  1. 在所有mesos从站中安装hadoop客户端

    • 在hdfs中放入spark-x.y.z.tar.gz
    • inspark-conf:spark.executor.uri hdfs:// nn:9000 / path / spark-x.y.z.tar.gz
    • 在spark-env中:导出SPARK_EXECUTOR_URI = hdfs:// nn:9000 / path / spark-x.y.z.tar.gz
  2. 将spark-x.y.z.tar.gz放入/ path / in / os /

    • 在spark-conf中:spark.executor.uri /path/in/os/spark-x.y.z.tar.gz
    • 在spark-env中:导出SPARK_EXECUTOR_URI = / path / in / os / spark-x.y.z.tar.gz

否则:在mesos ui中->代理选项卡->沙箱-> stderr(检查错误详细信息)