问题描述
我开发了一个 pyspark 脚本,通过使用 Spark Action 的 Apache Oozie 工作流和使用 Shell Action 的另一个工作流自动处理数据。在我的 pyspark 脚本中,我尝试执行以下操作:
os.system('hdfs dfs -e "$(hdfs dfs -cat /full_path_in_my_hdfs/myquery.hql)"')
myquery.hql 文件只创建了一个小的 hive 表,一点都不复杂。我已经提供了在 oozie 上运行 pyspark 所需的所有配置和 jdbc 设置。在oozie上执行这个pyspark的状态是成功了,但是根本没有创建表。这就像 oozie 将作业提交到 hadoop/yarn 并尝试执行它但没有返回任何输出,好像它忽略它并跳转到第二个命令并返回一个成功的作业。
我在没有 oozie 的情况下在 shell 上测试了上述命令和脚本,它运行良好并创建了表,只有当我尝试在 oozie 中自动执行该作业时,我才没有输出,并且 oozie 作业成功完成?!?! ?
如果有人之前遇到过类似的事情并愿意分享他/她的方法或对此类用例的任何建议,我将不胜感激。
谢谢大家
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)