Lua模式匹配

已经拿Lua用了快两年的时间了，但是每次用到字符串的模式匹配的时候就总要去翻看Lua官网的说明，网上也没有一个比较详细的说明，也有好多朋友都向我询问这块的内容，其实这块的难点有三：

一个是对Lua的正则表达式不熟悉；
另一个是对Lua中string库提供的几个函数的用法不熟悉；
还有一点是Lua的string库提出了一个新的概念，叫做捕获，其实也不算什么新概念，只是和函数调用杂糅在一起行为就不好理解罢了。

这里我总结一下。

先从Lua内置string库提供的几个大家不熟悉的函数开始（基于Lua5.1，Lua5.2基本没有变化）。

Lua内置字符串库用到模式的地方有4个函数，它们分别是：

string.find()

string.match()

string.gmatch()

string.gsub()

1、string.find(s,pattern,start,plain)

这个函数的功能是查找字符串 s 中的指定的模式 pattern。

如果找到了一个模式的匹配，就返回找到的模式在 s 中的起点和终点；否则返回 nil。这里需要注意的是，它只会返回找到的第一个匹配的位置，所以找到了的返回值其实是两个数字，匹配的起点、匹配的终点。

第三个参数是个数字，它是可选的，start 指定在 s 中查找开始的位置，默认是 1，start可以是负数，-1 代表从最后一个字符开始，-2 代表倒数第二个字符开始。当然，最后都是到最后一个字符结束，所以如果你指定位置从最后一个字符开始，那么就只会查找这一个字符。

第四个参数是个 bool 值，它指明第二个参数 pattern 中是否使用特殊字符，如果第四个参数指明为 true，那么就意味着第二个参数 pattern 中的那些特殊字符（这些字符有 ^$*+?.([%- ，定义在Lua源码 lstrlib.c 中）都被当作正常字符进行处理，也就是一个简单的字符串匹配，而不过所谓的模式匹配，也就是不动用正则表达式的匹配。相反，false 就意味着 pattern 采用特殊字符处理。这样说也不太明了，举个例子就明白了，不过要涉及到一个Lua模式中特殊的字符，如果这里还是不明白，看了后面我关于Lua正则表达式的介绍应该就能明白。

比如：

 
         local s =  
         "am+df" 
        
         print(string.find(s,  
         "m+" 
         ,1,  
         false 
         ))    -- 2    2 
        
         true 
         ))    -- 2    3

其中字符 + 在 Lua 正则表达式中的意思是匹配在它之前的那个字符一次或者多次，也就是说 m+ 在正则表达式里会去匹配 m,mm,mmm ……。所以当 string.find 第四个参数为 false 的时候，就只能在字符串 s 中找到 m 这个字母是匹配的，那么返回的结果就是 2 2。

而当第四个参数为 true 的时候， + 被当作正常字符，那么查找的匹配就是 m+ 这个字符串，那么找到的位置就是 2 3。

如果你不传第四个参数，就跟 false 是一个意思。

上面把 find 函数做了一个简单的介绍，但是这个函数的行为并非总是这样，为什么呢？这就是我文章开头提到的Lua的捕获也会被杂糅到这些string的库函数里。

没有办法，只得先介绍一下所谓的捕获是个什么概念。

上面 find 函数的第二个参数我们都明白是一个模式，可以理解为一般的正则匹配中的正则表达式，而Lua为这个模式增加了一个新的功能，也就是所谓的捕获，在一个模式串中，我们可以用小括号()来标明一些我们想要保存的匹配，而这个小括号中的内容依然是模式串，也就是说我们只不过是把模式中一些我们想要的特殊字符保留下来供后面使用。比如上面那个例子中的模式串是 m+ ，如果我想要把跟m+ 匹配的字符串捕获出来，也就是保存下来，我可以用一个小括号把它括起来，而 find 函数除了上面说到的行为外，也就是除了返回查找到 pattern 的起止位置外，还会返回所有要求捕获的字符串，像这样：

"(m+)" )) -- 2 2 m

Lua模式匹配

相关文章