如何在火花集群上运行外部可执行文件

问题描述

我有一个可执行文件（黑匣子），它在我的 linux 本地文件系统中运行。可执行文件接受多个输入文件并生成多个输出文件。

现在，我在 HDFS 中有更大的数据集，它们应该作为可执行文件的输入。因此，如果我尝试将 hdfs 数据下载到本地文件系统，则可执行文件需要永远处理它们。因此，我想将可执行文件分发到 spark/yarn 所在的位置，并位于所有工作程序/执行程序节点中。然后，我将 HDFS 数据集读入 spark 数据帧并将数据帧写入驱动程序/执行程序的工作目录，我的可执行文件可以读取和处理它们并在驱动程序节点的工作目录中生成输出。

然后我读取驱动程序工作目录中的输出，并根据需要将它们加载到 hive 表中。

对可能的解决方法有任何想法或建议吗？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark executable executable file file file spark-submit