问题描述
我正在尝试加速数据块上的Spark ML管道。
目前,为具有2000行3列的数据帧训练SparkML管道需要花费35分钟。
基于https://medium.com/@viirya/slowness-of-ml-pipeline-in-spark-6ec76d66042f, https://docs.tibco.com/pub/compute/1.2.0/TIB_compute_1.2.0_relnotes.pdf?id=1 和Spark: Dataframe action really slow when upgraded from 2.1.0 to 2.2.1
我需要禁用
CONSTRAINT_PROPAGATION_ENABLED
import pyspark.sql.conf as sqlConf
spark.conf.set(sqlConf.CONSTRAINT_PROPAGATION_ENABLED.enabled,false)
得到错误:
AttributeError: module 'pyspark.sql.conf' has no attribute 'CONSTRAINT_PROPAGATION_ENABLED'
如何访问密钥以便可以将其禁用?
谢谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)