正则表达式 – 为什么大多数语言无效地执行通配符正则表达式？

我获得了关于许多现代语言中正则表达式实现的以下文章的链接.

http://swtch.com/~rsc/regexp/regexp1.html

TL; DNR：固定$n $的某些正则表达式,如(a？)^ na ^ n取指数时间匹配,例如,^ n,因为它在匹配时通过字符串的追溯来实现？部分.通过保持状态列表将其作为NFA来实现,这显然是因为明显的原因

每个语言实际实现这些的细节不是非常详细(而且文章很旧),但我很好奇：使用NFA而不是其他实现技术的缺点是什么？我唯一可以想出的是,大多数图书馆的所有钟声和口哨声都是：a)为所有这些功能构建NFA是不切实际的或者b)上面的表达和其他一些可能更多的表现问题常见,操作.

虽然可以很好地构建处理这些复杂情况的DFA(由Henry Spencer编写的 Tcl RE engine是一个例证证明;文章链接表明了它与其性能数据),但也非常困难.

一个关键的事情是,如果你可以检测到你不需要匹配的组信息,那么你可以(对于许多RE,特别是那些没有内部反向引用的RE),将RE转换为仅使用括号进行分组的RE,从而允许更有效的RE被生成(so(a？){n} a {n} – 我使用现代常规语法 – 变得有效地等效于{n,2n}).反向引用突破了主要优化;在亨利的RE代码(以上提到)中并没有什么是代码注释,将其描述为“黑色泻湖的特征”.这是我在代码中阅读的最好的评论之一(除了引用描述算法编码的学术论文).

另一方面,具有递归下降评估方案的Perl / PCRE风格引擎可以将一组更为语法的语义归结为混合的贪婪RE,还有许多其他的东西. (在最后端,递归模式 – (？R)等是完全不可能的自动机理论方法,它们需要一个堆栈来匹配,使它们正式不是正则表达式.)

在实际层面上,构建NFA和DFA的成本可能相当高.您需要聪明的缓存才能使其不太贵.而且在实际的层面上,PCRE和Perl的实现已经有更多的开发人员应用于它们.

正则表达式 – 为什么大多数语言无效地执行通配符正则表达式？

相关文章