使用正则表达式过滤 pyspark.RDD

问题描述

我有一个 pyspark.RDD,其中包含我想过滤掉的日期。日期以这种形式出现在我的 RDD 中:

data.collect() = ["Nujabes","Hip Hop","04:45 16 October 2018"]

我一直在尝试使用以下方法通过正则表达式过滤掉这些:

r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}"

但我做错了:

data = data.filter(lambda x: x != r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}")

对于上面给定的 data,所需的输出

data.collect() = ["Nujabes","Hip Hop"]

解决方法

您可以使用 Python 正则表达式进行过滤:

data2 = data.filter(lambda x: not re.match(r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}",x))