对于小尺寸数据,SparkML管道训练速度很慢,但是无法在pyspark上禁用约束传播密钥?

问题描述

我正在尝试加速数据块上的Spark ML管道。

目前,为具有2000行3列的数据帧训练SparkML管道需要花费35分钟。

基于https://medium.com/@viirya/slowness-of-ml-pipeline-in-spark-6ec76d66042fhttps://docs.tibco.com/pub/compute/1.2.0/TIB_compute_1.2.0_relnotes.pdf?id=1Spark: Dataframe action really slow when upgraded from 2.1.0 to 2.2.1

我需要禁用

CONSTRAINT_PROPAGATION_ENABLED

import pyspark.sql.conf as sqlConf
spark.conf.set(sqlConf.CONSTRAINT_PROPAGATION_ENABLED.enabled,false)

得到错误

 AttributeError: module 'pyspark.sql.conf' has no attribute 'CONSTRAINT_PROPAGATION_ENABLED'

如何访问密钥以便可以将其禁用?

谢谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)