问题描述
我在云上有一个主机,其中有3个主机和10个从机。
所有从站都处于活动状态,但在Mesos主界面中分配了0个资源:
在主页上,我可以看到10个激活的代理,但9个无法访问:
我尝试在群集上运行的作业永远卡在RUNNING状态。
Spark是否需要启动并运行(在每个从站上运行start-slave.sh)还是mesos? 怎么了?
机器上没有端口被阻塞
编辑:
启动应用程序的机器似乎可以连接到主服务器:
<script src="https://cdnjs.cloudflare.com/ajax/libs/moment.js/2.27.0/moment-with-locales.min.js" integrity="sha512-qSnlnyh7EcD3vTqRoSP4LYsy2yVuqqmnkM9tW4dWo6xvAoxuVXyM36qZK54fyCmHoY1iKi9FJAUZrlPqmGNXFw==" crossorigin="anonymous"></script>
它也尝试启动任务,但被卡住,这种行为是循环的:
解决方法
此问题的两种解决方案:
-
在所有mesos从站中安装hadoop客户端
- 在hdfs中放入spark-x.y.z.tar.gz
- inspark-conf:spark.executor.uri hdfs:// nn:9000 / path / spark-x.y.z.tar.gz
- 在spark-env中:导出SPARK_EXECUTOR_URI = hdfs:// nn:9000 / path / spark-x.y.z.tar.gz
-
将spark-x.y.z.tar.gz放入/ path / in / os /
- 在spark-conf中:spark.executor.uri /path/in/os/spark-x.y.z.tar.gz
- 在spark-env中:导出SPARK_EXECUTOR_URI = / path / in / os / spark-x.y.z.tar.gz
否则:在mesos ui中->代理选项卡->沙箱-> stderr(检查错误详细信息)