问题描述
我有一段相当大的文本,我想检查该段落是否包含某些短语。现在,不允许直接匹配,因为我想知道该段落是否包含短语或类似短语,例如如果我有一份隐私政策文件,并且我想检查该文件是否提到了有关“跟踪 cookie”的任何内容,我将如何处理?
我是用 Python 做的。
解决方法
您可以构建一个正则表达式来捕获字符串“跟踪 cookie”的多个变体。例如,捕获的正则表达式:
tracking cookies
cookie trackers
Cookies
cookie
tracker cookie
Tracking Cookies
.
.
.
etc.
然后,每次遇到字符串的新变体时,都可以将其添加到正则表达式中。