在 pyspark 文件中执行 hive 命令,同时通过 Apache Oozie

问题描述

我开发了一个 pyspark 脚本,通过使用 Spark Action 的 Apache Oozie 工作流和使用 Shell Action 的另一个工作流自动处理数据。在我的 pyspark 脚本中,我尝试执行以下操作:

os.system('hdfs dfs -e "$(hdfs dfs -cat /full_path_in_my_hdfs/myquery.hql)"')

myquery.hql 文件只创建了一个小的 hive 表,一点都不复杂。我已经提供了在 oozie 上运行 pyspark 所需的所有配置和 jdbc 设置。在oozie上执行这个pyspark的状态是成功了,但是根本没有创建表。这就像 oozie 将作业提交到 hadoop/yarn 并尝试执行它但没有返回任何输出,好像它忽略它并跳转到第二个命令并返回一个成功的作业。

我在没有 oozie 的情况下在 shell 上测试了上述命令和脚本,它运行良好并创建了表,只有当我尝试在 oozie 中自动执行该作业时,我才没有输出,并且 oozie 作业成功完成?!?! ?

如果有人之前遇到过类似的事情并愿意分享他/她的方法或对此类用例的任何建议,我将不胜感激。

谢谢大家

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...