随机素数和Rabin Karp子串搜索

问题描述

我正在阅读Sedgewick的rabin-Karb算法。这本书说:

我们使用随机质数Q取尽可能大的值,而 避免溢出

在一读时,我没有注意到 random 的重要性,当我看到在代码中使用long时,我的最初想法是:
a)使用Eratosthene的筛子找到适合long
的大质数 或
b)从素数列表中查找大于int的足够大的素数,并将其用作常量。

但随后的其余解释是:

我们将使用大于long的{​​{1}}值来使概率 发生碰撞的次数少于10^20

这部分让我感到困惑,因为10^-20无法容纳long,更不用说一个更大的值了。 然后,当我检查了素数的计算时,这本书就按照一个仅包含以下提示的练习进行了表达:

一个随机n位数是质数,概率与1 / n成正比

那是什么意思?

所以基本上我不知道的是:
a)使用 random 质数是什么意思?为什么我们不能仅对其进行预先计算并将其用作常量?
b)为什么提到10^20,因为它超出了10^20的范围?
c)该提示有什么帮助?到底是什么意思?

解决方法

Once again,塞奇威克(Sedgewick)试图简化算法,并在细节上略有错误。首先,如您所见,10 20 不能用64位表示。但是,即使采用接近2 63 − 1的质数,您也可能需要一点空间来乘以正常方式而不溢出,以使后续模数正确。答案使用31位质数,这很容易,但仅提供10 −9 范围内的冲突概率。

原始版本在? 2 [x]上使用Rabin fingerprints和随机irreducible polynomial,从代数数论的角度看,它的行为很像随机素数整数。如果我们选择多项式为32或64,则指纹可以完美地适合适当长度的计算机字,并且多项式加法和减法都可以按位进行XOR,因此不会发生溢出。

现在,Sedgewick可能不想解释多项式环的工作原理。精细。如果我必须在实践中实施这种方法,我会选择接近最大的质数p,该质数可以通过廉价指令轻松修改(我偏爱 2 31 − 2 27 + 1 ;实际上,编辑2 31 − 1的效果更好,因为我们在这里不需要平滑的质数然后在[1,p-1]中选择一个随机数以评估多项式(这是Wikipedia解释的方式)。我们需要一些随机性的原因是,否则,健忘的对手可能会选择一个输入,该输入将被保证会发生很多哈希冲突,这将严重降低运行时间。

Sedgewick想要比原始模型更接近原始模型,但是,本质上,它以固定值x(使用多项式环的原始版本中的x)评估多项式。他需要一个随机的素数,以使遗忘的对手无法设计碰撞。筛选足够大的数字效率很低,因此他转向质数定理(这是他的暗示背后的数学原理,但仅渐近地保持,理论上讲会造成很大的混乱)和快速的素数检验(可能是概率的;失败的情况不会影响算法的正确性,而且这种情况很少见,不会影响预期的运行时间。

我不确定他如何证明碰撞概率的形式边界。我的粗略想法是,基本上表明感兴趣的窗口中有足够的质数,使用中国剩余定理表明不可能一次有太多质数发生碰撞,得出碰撞概率受定律限制的结论。选择不良素数的可能性很低。但是素数定理只是渐近地成立,因此我们必须依靠计算机实验来确定机器字范围内素数的密度。不太好。