在 pyspark 文件中执行 hive 命令，同时通过 Apache Oozie

问题描述

我开发了一个 pyspark 脚本，通过使用 Spark Action 的 Apache Oozie 工作流和使用 Shell Action 的另一个工作流自动处理数据。在我的 pyspark 脚本中，我尝试执行以下操作：

os.system('hdfs dfs -e "$(hdfs dfs -cat /full_path_in_my_hdfs/myquery.hql)"')

myquery.hql 文件只创建了一个小的 hive 表，一点都不复杂。我已经提供了在 oozie 上运行 pyspark 所需的所有配置和 jdbc 设置。在oozie上执行这个pyspark的状态是成功了，但是根本没有创建表。这就像 oozie 将作业提交到 hadoop/yarn 并尝试执行它但没有返回任何输出，好像它忽略它并跳转到第二个命令并返回一个成功的作业。

我在没有 oozie 的情况下在 shell 上测试了上述命令和脚本，它运行良好并创建了表，只有当我尝试在 oozie 中自动执行该作业时，我才没有输出，并且 oozie 作业成功完成？！？！ ?

如果有人之前遇到过类似的事情并愿意分享他/她的方法或对此类用例的任何建议，我将不胜感激。

谢谢大家

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）