python pyspark需要更长的时间来运行近似

问题描述

我正在做MinHashLSH，以使用pyspark python查找数据帧的模糊匹配。但是，当我运行roximiseSimilarityJoin时，执行代码需要很长时间。

我为解决此问题所做的事情：

我的数据很小，只有800 Kb（仅4万行）
我已经设置了提高性能的阈值
我增加了VM上的cpu 数量
我已将broadcastTimeout增加为config（“ spark.sql.broadcastTimeout”，“ 36000”）

但是，同样的问题也会发生。我该怎么做才能解决此问题？

mh = MinHashLSH(inputCol="features",outputCol="hashes",numHashTables=5)
model = mh.fit(rescaledData)
res = model.approxSimilarityJoin(rescaledData,rescaledData,0.5,distCol="Jaccarddistance")

res.show()

config：

spark = (SparkSession
        .builder
        .master('local')
        .appName('LSH-Cosine')
        .config("spark.sql.broadcastTimeout","36000")
        .config("spark.sql.shuffle.partitions","300")
        .getorCreate())

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

lsh pyspark pyspark python