python pyspark需要更长的时间来运行近似

问题描述

我正在做MinHashLSH,以使用pyspark python查找数据帧的模糊匹配。但是,当我运行roximiseSimilarityJoin时,执行代码需要很长时间。

我为解决此问题所做的事情:

  • 我的数据很小,只有800 Kb(仅4万行)
  • 我已经设置了提高性能的阈值
  • 增加了VM上的cpu数量
  • 我已将broadcastTimeout增加为config(“ spark.sql.broadcastTimeout”,“ 36000”)

但是,同样的问题也会发生。我该怎么做才能解决此问题?

代码

mh = MinHashLSH(inputCol="features",outputCol="hashes",numHashTables=5)
model = mh.fit(rescaledData)
res = model.approxSimilarityJoin(rescaledData,rescaledData,0.5,distCol="Jaccarddistance")

res.show()

config

spark = (SparkSession
        .builder
        .master('local')
        .appName('LSH-Cosine')
        .config("spark.sql.broadcastTimeout","36000")
        .config("spark.sql.shuffle.partitions","300")
        .getorCreate())

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)