问题描述
我正在尝试使用 pandas udf 提交 pyspark 代码(使用 fbprophet...) 它在本地提交中运行良好,但在集群提交中出错,例如
Job aborted due to stage failure: Task 2 in stage 2.0 Failed 4 times,most recent failure: Lost task 2.3 in stage 2.0 (TID 41,ip-172-31-11-94.ap-northeast-2.compute.internal,executor 2): java.io.IOException: Cannot run program
"/mnt/yarn/usercache/hadoop/appcache/application_1620263926111_0229/container_1620263926111_0229_01_000001/environment/bin/python": error=2,No such file or directory
我的 spark-submit 代码:
PYSPARK_PYTHON=./environment/bin/python \
spark-submit \
--master yarn \
--deploy-mode cluster \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python \
--conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python \
--jars jars/org.elasticsearch_elasticsearch-spark-20_2.11-7.10.2.jar \
--py-files dependencies.zip \
--archives ./environment.tar.gz#environment \
--files config.ini \
$1
我通过 conda pack、dependencies.zip 作为我的本地包制作了 environment.tar.gz 和 config.ini 加载设置
有没有办法处理这个问题?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)