筛选前两个字符为大写的列值

问题描述

我正在尝试使用Pyspark过滤表，其中一个列的所有值的所有前两个字符都以两个大写字母开头，例如'UTrecht'，'NEw York'等

这是我尝试过的，但是完全失败了：

=IFERROR(
    IF(
        Month End="Y",((IFERROR(IF(01/2020=Report Month,249 - GT,249),""))-Open),IFERROR(IF(01/2020=Report Month,"")
    ),""
)

我也尝试过：

df_filtered=df.filter(F.col("column_name").isUpper())

这导致了以下错误：

filter（）接受2个位置参数，但给出了3个

我是Pyspark的相对新手，因此任何建议都将不胜感激。

提前谢谢！

解决方法

您可以使用substr函数和如下所示的upper函数来查看substr是否为上层

如果该子字符串带有substr，则将upper(F.col("test").substr(1,2))的前两个字母与大写版本进行比较，并将其过滤为

df.filter(
   F.col("test").substr(1,2) == F.upper(F.col("test").substr(1,2))
).show()

如果您想要更大的灵活性，（但是这不是通往i的最好方法），您可以使用udf，它使用python isupper（）函数返回True / False。

from pyspark.sql.functions import udf
from pyspark.sql.types import BooleanType


upp  = udf(lambda x: x[0:2].isupper() if x!= None else False,BooleanType())

df.filter(upp('affiliation_city')).show()

apache-spark filtering pyspark pyspark python uppercase