在理解Rabin-Karp实现中恒定时间的滚动哈希计算方面需要帮助

问题描述

| 我一直在尝试用Java实现rabin-Karp算法。我很难在恒定时间内计算滚动哈希值。我在http://algs4.cs.princeton.edu/53substring/rabinKarp.java.html找到了一种实现。我仍然无法理解这两行的工作方式。
txtHash = (txtHash + Q - RM*txt.charat(i-M) % Q) % Q;
txtHash = (txtHash*R + txt.charat(i)) % Q;  
我看了几篇有关模块化算术的文章,但没有一篇文章能穿透我厚厚的头骨。请给出一些指示来理解这一点。     

解决方法

这是哈希的“滚动”方面。它消除了最早的字符(
txt.charAt(i-M)
)的贡献,并合并了最新字符(
txt.charAt(i)
)的贡献。 哈希函数定义为:
            M-1
hash[i] = ( SUM { input[i-j] * R^j } ) % Q
            j=0
(在这里,我使用
^
来表示\“ \”的幂。) 但这可以写为高效的递归实现,如下所示:
hash[i] = (txtHash*R - input[i-M]*(R^M) + input[i]) % Q
您的参考代码正在执行此操作,但是它使用各种技术来确保始终正确(高效)地计算结果。 因此,例如,第一个表达式中的
+ Q
没有数学影响,但可以确保总和的结果始终为正(如果为负,,7ѭ不会产生期望的效果)。它也将计算分为多个阶段,以防止数值溢出。     ,首先,您需要了解哈希的计算方式。 让我们以一个以10为底的字符串为例。您如何保证字符串的哈希码是唯一的?以10为基数是用来表示数字的,我们没有碰撞!   \“ 523 \” = 5 * 10 ^ 2 + 2 * 10 ^ 1 + 3 * 10 ^ 0 = 523 使用上述哈希函数,可以确保为每个字符串获得不同的哈希。 给定\“ 523 \”的哈希值,如果要计算\“ 238 \”的哈希值,即突出最左边的数字5并从右边引入一个新的数字8,则必须执行以下操作:   1)从哈希中删除5的效果:   哈希=哈希-5 * 10 ^ 2(523-500 = 23)      2)通过移位1,调整剩余字符的哈希值,hash = hash * 10      3)添加新字符的哈希:   哈希=哈希+ 8(230 + 8 = 238,正如我们期望的那样,它是\“ 238 \”的基数10哈希) 现在,将其扩展到所有ascii字符。这将我们带到以256为基准的世界。因此,相同字符串\“ 523 \”的哈希现在为   = 5 * 256 ^ 2 + 2 * 256 ^ 1 + 3 * 256 ^ 0 = 327680 + 512 + 3 = 328195。 您可以想象,随着字符串长度的增加,在大多数编程语言中,您将很快超过整数/长整数的范围。 我们该如何解决呢?常规解决此问题的方法是使用较大的质数模量。这种方法的缺点是我们现在也会得到误报,如果将算法的运行时间从二次变为线性,这是一个很小的代价! 您引用的复杂方程只是用模数数学完成的上述步骤1-3。 上面使用的两个模量属性是->   a)(a * b)%p =((a%p)*(b%p))%p      b)a%p =(a + p)%p 让我们回到上面提到的步骤1-3->   1)(使用属性a扩展)hash = hash-((5%p)*(10 ^ 2%p)%p) 与您引用的内容        txtHash =(txtHash + Q-RM * txt.charAt(i-M)%Q)%Q;    这是两者之间的联系!             RM = 10 ^ 3%p     txt.charAt(i-M)%Q = 5%p     您看到的附加+ Q只是为了确保哈希不为负。参见上面的属性b。              2&3)hash = hash * 10 + 8,而txtHash =(txtHash * R + txt.charAt(i))%Q;   是一样的,但与最终哈希结果的国防部! 仔细查看属性a和b,应该可以帮助您解决问题!     

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...