c – 计算布隆过滤器的近似总体

给定大小为n位和K个散列函数的布隆过滤器,其中设置了滤波器的M位(其中M <= N). 是否可以近似插入布隆过滤器的元素数量? 简单的例子 我一直在考虑以下示例,假设一个100位的BF和5个散列函数,其中设置了10位… 最佳情况:假设散列函数非常完美并且为某些X个值唯一映射一个位,那么已经设置了10位,我们可以说在BF中只插入了2个元素 最糟糕的情况:假设哈希函数是坏的并且一致地映射到相同的位(但彼此之间是唯一的),那么我们可以说已经将10个元素插入到BF中 范围似乎是[2,10],其中这个范围内的大概可能是由滤波器的假阳性概率决定的 – 我在这一点上陷入困​​境.

解决方法

这个问题让我有点担心,因为有大约 better algorithms用于计算具有少量存储的不同元素的数量.

然而,如果我们必须使用Bloom过滤器,我们假设散列函数随机的oracles(所有值独立选择,或“非常完美”,不要与完美散列混淆).现在我们有一个球和箱子的问题:考虑到N个箱子中有M个球,我们扔了多少个球?设B为抛出的球数;项目数是B / K,因为每个项目我们扔K球.

球和箱过程的标准近似是将每个箱建模为独立的泊松过程; bin被占用之前的时间是指数分布的.假设1是抛出所有球所花费的时间,该指数分布的速率的最大似然估计λ满足Pr(指数[λ] <1)= M / N,所以1-exp(-λ) = M / N且λ= -log(1-M / N).参数λ类似于球的数量,因此项目数的估计是B≈-N log(1-M / N)/ K. 编辑:有N个箱子,所以我们需要乘以N.

相关文章

本程序的编译和运行环境如下(如果有运行方面的问题欢迎在评...
水了一学期的院选修,万万没想到期末考试还有比较硬核的编程...
补充一下,先前文章末尾给出的下载链接的完整代码含有部分C&...
思路如标题所说采用模N取余法,难点是这个除法过程如何实现。...
本篇博客有更新!!!更新后效果图如下: 文章末尾的完整代码...
刚开始学习模块化程序设计时,估计大家都被形参和实参搞迷糊...