随机素数和Rabin Karp子串搜索

问题描述

我正在阅读Sedgewick的rabin-Karb算法。这本书说：

我们使用随机质数Q取尽可能大的值，而避免溢出

在一读时，我没有注意到 random 的重要性，当我看到在代码中使用long时，我的最初想法是：
a）使用Eratosthene的筛子找到适合long
的大质数或
b）从素数列表中查找大于int的足够大的素数，并将其用作常量。

但随后的其余解释是：

我们将使用大于long的{{1}}值来使概率发生碰撞的次数少于10^20

这部分让我感到困惑，因为10^-20无法容纳long，更不用说一个更大的值了。然后，当我检查了素数的计算时，这本书就按照一个仅包含以下提示的练习进行了表达：

一个随机的n位数是质数，概率与1 / n成正比

那是什么意思？

所以基本上我不知道的是：
a）使用 random 质数是什么意思？为什么我们不能仅对其进行预先计算并将其用作常量？
b）为什么提到10^20，因为它超出了10^20的范围？
c）该提示有什么帮助？到底是什么意思？

解决方法

Once again，塞奇威克（Sedgewick）试图简化算法，并在细节上略有错误。首先，如您所见，10 ²⁰不能用64位表示。但是，即使采用接近2 ⁶³ − 1的质数，您也可能需要一点空间来乘以正常方式而不溢出，以使后续模数正确。答案使用31位质数，这很容易，但仅提供10 ⁻⁹范围内的冲突概率。

原始版本在?₂ [x]上使用Rabin fingerprints和随机irreducible polynomial，从代数数论的角度看，它的行为很像随机素数整数。如果我们选择多项式为32或64，则指纹可以完美地适合适当长度的计算机字，并且多项式加法和减法都可以按位进行XOR，因此不会发生溢出。

现在，Sedgewick可能不想解释多项式环的工作原理。精细。如果我必须在实践中实施这种方法，我会选择接近最大的质数p，该质数可以通过廉价指令轻松修改（我偏爱 ~~2 ³¹ − 2 ²⁷ + 1~~ ；实际上，编辑2 ³¹ − 1的效果更好，因为我们在这里不需要平滑的质数然后在[1，p-1]中选择一个随机数以评估多项式（这是Wikipedia解释的方式）。我们需要一些随机性的原因是，否则，健忘的对手可能会选择一个输入，该输入将被保证会发生很多哈希冲突，这将严重降低运行时间。

Sedgewick想要比原始模型更接近原始模型，但是，本质上，它以固定值x（使用多项式环的原始版本中的x）评估多项式。他需要一个随机的素数，以使遗忘的对手无法设计碰撞。筛选足够大的数字效率很低，因此他转向质数定理（这是他的暗示背后的数学原理，但仅渐近地保持，理论上讲会造成很大的混乱）和快速的素数检验（可能是概率的；失败的情况不会影响算法的正确性，而且这种情况很少见，不会影响预期的运行时间。

我不确定他如何证明碰撞概率的形式边界。我的粗略想法是，基本上表明感兴趣的窗口中有足够的质数，使用中国剩余定理表明不可能一次有太多质数发生碰撞，得出碰撞概率受定律限制的结论。选择不良素数的可能性很低。但是素数定理只是渐近地成立，因此我们必须依靠计算机实验来确定机器字范围内素数的密度。不太好。

algorithm algorithm primes random random random string string