问题描述
我正在做MinHashLSH,以使用pyspark python查找数据帧的模糊匹配。但是,当我运行roximiseSimilarityJoin时,执行代码需要很长时间。
我为解决此问题所做的事情:
- 我的数据很小,只有800 Kb(仅4万行)
- 我已经设置了提高性能的阈值
- 我增加了VM上的cpu数量
- 我已将broadcastTimeout增加为config(“ spark.sql.broadcastTimeout”,“ 36000”)
但是,同样的问题也会发生。我该怎么做才能解决此问题?
代码:
mh = MinHashLSH(inputCol="features",outputCol="hashes",numHashTables=5)
model = mh.fit(rescaledData)
res = model.approxSimilarityJoin(rescaledData,rescaledData,0.5,distCol="Jaccarddistance")
res.show()
config:
spark = (SparkSession
.builder
.master('local')
.appName('LSH-Cosine')
.config("spark.sql.broadcastTimeout","36000")
.config("spark.sql.shuffle.partitions","300")
.getorCreate())
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)