大型数据集的 hnswlib 参数?

问题描述

我在 Python 中使用库 hnswlib (https://github.com/nmslib/hnswlib ) 库来实现快速的 KNN 搜索。我想知道大型数据集的参数。

我正在使用官方存储库中的此基准测试在大型数据集(向量维度为 256+ 和 100 万个向量+)上的库行为https://github.com/nmslib/hnswlib/blob/master/examples/example.py

用几个 100k 的小数据集进行测试,这个基准的召回结果非常好,通常在 0.9 左右。增加到百万,这下降到 0.7

该库的作者概述了库参数 (https://github.com/nmslib/hnswlib/blob/master/ALGO_ParaMS.md) 的一些一般属性,但找到一个能够导致对大数据的高召回率的设置非常耗时,因为索引构建时间需要几个小时,并且随着索引构建时间的增加而进一步增加为参数选择更大的值。

对于某些数据维度或数据点数量是否有一些最佳实践值?我知道这个库很受欢迎,但我找不到任何有价值的建议。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)