正则表达式之元字符与转义

re.search("^[0-9]$","2")!=None

如上的Python正则表达式例子中,字符组中的横线-并不表示匹配横线字符,而是用来表示范围的,这类字符叫做元字符噶粉色发噶三个人。字符组中的开方括号[、闭方括号]和之前的^、$都是元字符。在匹配中,它们有着特殊的意义。

但是有的时候我们的确需要匹配如上的元字符,此时就需要特殊处理(如转义)。

处理如下:

如果要在字符组内部使用横线-,最好的办法是将它放在字符组的最开头即[的后面。如[-09]就是包含三个字符-、0、9的字符组;[-0-9]则是由"范围表示法"0-9和横线-共同组成的字符组,包含11个字符。

对于其他元字符也包含横线-,取消特殊含义的方法是转义,也就是在正则表达式中的元字符之前加上反斜线字符\。

如:

re.search("^[-09]$","-") !=None #=>True

使用转义的方法:

re.search("^[0\\-9]$","-")!=None #=>True

注:这里写的是[0\\-9],而不是[0\-9].因为在Python中正则表达式是以字符串的形式提供的,而字符串本身是有关与转义的规定的,上面的正则表达式因为要引入\,所以在字符串形式的正则表达式中(当然明确的说还不是正则表达式)要再写一个\,这样就实现了[0\-9]这样的正则。就是说正则表达式中的每个反斜线字符\,在字符串中还必须转义为\\。所以正则表达式[0\-9],在程序中写的却是[0\\-9]。

不过,Python中提供了原生字符串,它非常适合于正则表达式:正则表达式是什么样,原生字符串就是什么样。不必考虑正则表达式之外的转义。原生字符串的形式是r "string"即普通字符串之前添加r。所以

re.search("^[0\\-9]$","-")可以使用re.search(r"^[0\-9]$","-")代替。

相关文章

正则替换html代码中img标签的src值在开发富文本信息在移动端...
正则表达式
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。它...
正则表达式是特殊的字符序列,利用事先定义好的特定字符以及...
Python界一名小学生,热心分享编程学习。
收集整理每周优质开发者内容,包括、、等方面。每周五定期发...