如何公开数据集以读取到远程工作节点?

问题描述

我正在创建一个工作节点(主机)和一个主节点(VM)之间的连接,我通过指定虚拟机的 IP 到工作节点建立了一个连接,我在工作节点上启动了一个 Spark 客户端希望从主节点读取一些数据。 基本上我通过这些步骤来建立连接:

  1. spark-class org.apache.spark.deploy.master.Master 在虚拟机上

  2. spark-class org.apache.spark.deploy.worker.Worker spark://ip:port 在主机上运行工作程序

  3. spark-shell --master spark://ip:port 连接应用程序 到新创建的集群。

我的问题是,在不使用 HDFS 的情况下,要在 Spark 的独立模式下公开工作节点(VM)上的数据集以供主节点(主机)读取,需要执行哪些步骤? 提示

  1. 是否可以将数据集写入主节点中的 Hive 表(通过全局视图)并在远程工作节点中读取? 在这种情况下,当我尝试在主节点上创建全局视图以在远程工作节点上读取时,我收到一个与资源相关的错误,特别是当我读取数据集时,会出现一个警告说

初始作业未接受任何资源,请检查您的集群 UI 以 确保工人已注册并拥有资源。

当我在工作节点上创建全局视图时没有错误,但我无法读取主节点的视图。

  1. 或者,我正在考虑使用 --files 的选项 spark-submit 指定要与我的工作节点共享的文件,但是如何实现这一点?

  2. 或者需要 HDFS 来与需要访问它们的工作节点共享文件

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)