问题描述
我在 Google Cloud Platform 上创建了一个集群,该集群具有五个基于 Linux 的虚拟机 (VM):一个主服务器和 4 个工作线程。
我在主虚拟机上运行 ./start-master.sh
,在工作虚拟机上运行 ./start-worker.sh [external-master-IP:7077]
。
现在我想简单地运行一个 Graphx 示例作业,例如一个已经在 Spark 中的 PageRank 算法,使用 ./bin/spark-submit。 >
我知道,我阅读了文档,其中说要像这样运行:
./bin/spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]
我试过这个:
./bin/spark-submit \
--class org.apache.spark.examples.graphx.PageRankExample \
--master spark://<external-IP>:7077 \
--deploy-mode cluster
它说:
“错误:缺少应用程序资源。”
我需要添加一个 .jar 吗?对于这个 PageRank 示例,我找不到它。
谢谢。