快速过滤掉低相似度向量

我的系统通过降维来计算向量相似度分数。我使用随机投影算法，然后通过汉明距离计算相似度。

通过这样做，与余弦相似度相比，我获得了良好的性能。但瓶颈仍然是我需要对整个数据集进行计算。

在知道数据集分布的前提下（而且我只需要相似度>0.9的数据），有没有什么好的方法可以“粗略”过滤掉相似度不好的数据，所以我不需要对这些项目进行昂贵的计算？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）