正则表达式 – 子串匹配正则表达式更快？

在阅读了RE / NFA和DFA之后,似乎找到一个字符串中的子字符串实际上可以使用RE而不是强力O(mn)find渐近地更快.我的理由是DFA实际上会保持状态并避免不止一次地处理“haystack”中的每个字符.因此,如果使用正则表达式,长字符串中的搜索实际上可能会快得多.

当然,这仅适用于从NFA转换为DFA的RE匹配器.

在使用RE而不是强力匹配器时,有没有人在现实生活中经历过更好的弦乐匹配表现？

首先,我建议您阅读有关几种语言的正则表达式内部的文章： Regular Expression Matching Can Be Simple And Fast.

由于许多语言中的regexp不仅仅用于匹配,而且还提供了组捕获和反向引用的可能性,因此在执行从给定regexp构建的NFA时,几乎所有实现都使用所谓的“回溯”.并且这种实现具有指数时间复杂度(在最坏的情况下).

对于简单的子字符串搜索,您可以使用Knuth-Morris-Pratt算法,它构建DFA以搜索子字符串,并且它具有最佳的O(len(s))复杂度.但它也有开销,如果你在现实世界的单词和短语(不那么重复)上测试这种优化算法的天真方法(O(nm)),你会发现天真的方法平均更好.

对于精确的子字符串搜索,您还可以尝试Boyer–Moore算法,其具有O(mn)最坏情况复杂度,但在实际数据上平均比KMP更好.

相关文章