问题描述
|
问题是:
我有一组文本文档,我想选择与输入文档最相似的一个。
输入的文本文档可以完全匹配或部分修改。
该算法必须非常快。
目前,我发现simhash从收集文档中获取指纹。还有其他算法可以做同样的事情吗?
解决方法
您是否尝试过LSH(位置敏感哈希)技术
, LSH(位置敏感哈希)技术是常规的索引方法。他们在寻找近似最近的邻居方面非常有效。
SimHash是LSH的一种哈希算法。它对实际值数据使用余弦相似度。
MinHash是LSH的另一种哈希算法。它计算二进制矢量上的相似度相似度。
Anand Rajaraman和Jeff Ullman撰写的第3章,海量数据集的挖掘。很好地介绍了问题空间,尤其是MinHash。