如何在 Google Cloud Platform 上提交 Spark Graphx 作业示例?

问题描述

我在 Google Cloud Platform 上创建了一个集群,该集群具有五个基于 Linux 的虚拟机 (VM):一个主服务器和 4 个工作线程。 我在主虚拟机上运行 ./start-master.sh,在工作虚拟机上运行 ./start-worker.sh [external-master-IP:7077]

现在我想简单地运行一个 Graphx 示例作业,例如一个已经在 Spark 中的 PageRank 算法,使用 ./bin/spark-submit。 >

我知道,我阅读了文档,其中说要像这样运行:

./bin/spark-submit \
   --class <main-class> \
   --master <master-url> \
   --deploy-mode <deploy-mode> \
   --conf <key>=<value> \
   ... # other options
   <application-jar> \
   [application-arguments]

我试过这个:

./bin/spark-submit \
  --class org.apache.spark.examples.graphx.PageRankExample \
  --master spark://<external-IP>:7077 \
  --deploy-mode cluster

它说:

错误:缺少应用程序资源。”

我需要添加一个 .jar 吗?对于这个 PageRank 示例,我找不到它。

谢谢。

解决方法

是的,您需要在 spark-submit 命令中添加 jar :

./bin/spark-submit \
  --class org.apache.spark.examples.graphx.PageRankExample \
  --master spark://<external-IP>:7077 \
  --deploy-mode cluster
  ../examples/jars/spark-examples_[your version].jar

您应该在 spark 安装下的 examples/jars 文件夹中找到它。该罐子名为 spark-examples_*.jar:

enter image description here