问题描述
我在 Python 中使用库 hnswlib
(https://github.com/nmslib/hnswlib
) 库来实现快速的 KNN 搜索。我想知道大型数据集的参数。
我正在使用官方存储库中的此基准测试在大型数据集(向量维度为 256+ 和 100 万个向量+)上的库行为https://github.com/nmslib/hnswlib/blob/master/examples/example.py
用几个 100k 的小数据集进行测试,这个基准的召回结果非常好,通常在 0.9 左右。增加到百万,这下降到 0.7
该库的作者概述了库参数 (https://github.com/nmslib/hnswlib/blob/master/ALGO_ParaMS.md
) 的一些一般属性,但找到一个能够导致对大数据的高召回率的设置非常耗时,因为索引构建时间需要几个小时,并且随着索引构建时间的增加而进一步增加为参数选择更大的值。
对于某些数据维度或数据点数量是否有一些最佳实践值?我知道这个库很受欢迎,但我找不到任何有价值的建议。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)