[NLP] 2.1 RE 正则表达式

本文整理自 TUM 的英文 NLP 课程。

正则表达式:使用代数符号(例如:+-*/)去表征,查找一系列的字符串,是一种非常简单的分类器(搜索器)。


符号 [ ]:里面的内容代表可选的字符

Pattern Matches
[wW]oodchuck Woodchuck or woodchuck
[1234567890] a single digit

符号 [ ‐ ]: 代表范围

Pattern Matches
[A-Z] 大写字符
[a-z] 小写字符
[0-9] 单一数字

符号 [^ ]: 排除某某(如果把^放在第一位)

Pattern Matches
[^A-Z] 大写字符
[^Ss] 既不是S,也不是s
[e^] e 或者 ^
[^e^] 既不是e,也不是^
a^b 就是 a^b嘛

符号 |: 选择

Pattern Matches
yours|mine yours或者mine
a|b|c 既不是S,也不是s
[gG]roundbog|[Ww]oodchuck 你懂的
grup(y|ies) gruppy 或 gruppies

未完结

相关文章

python方向·数据分析   ·自然语言处理nlp   案例:中...
原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo....
ptb数据集是语言模型学习中应用最广泛的数据集,常用该数据集...
 Newtonsoft.JsonNewtonsoft.Json是.Net平台操作Json的工具...
NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一...
做一个中文文本分类任务,首先要做的是文本的预处理,对文本...