迭代每个 Pandas df 行并确定行值是否在列表中，如果是，则将该值拉入 df

问题描述

我有一个 Pandas df，其中包含为世界各地的州手动输入的值。我有一个正确格式化并包含正确语法的状态值列表。我想遍历 pandas df 中的每一行，并将每行的值与状态列表中的所有值进行比较，以确定该行中的值是否包含在任何字符串值中。如果是这样，将该值从字符串中提取到名为“match”的新 df 列中。如果包含 Pandas 行的字符串值不止一个，则引入这两个值并让它创建一个列表。下面是我的意思的一个例子。

注意：我已经可以使用 difflib get_close_matches 函数来做到这一点。发布下面的代码并为此输出，想要一种方法来复制它，但是对于熊猫中的 str.contains() 能力。

states_list = ['俄勒冈州'、'德克萨斯州'、'科罗拉多州'、夏威夷州、'索诺拉州'、'阿拉斯加州'、'阿拉巴马州'、'阿克拉'等]

结果

我如何使用获取接近匹配来选择与下面输入的状态值最接近的匹配。想要添加另一列，其中包含行值字符串所在的状态列表中的值

解决方法

尝试以下操作：

s = set([i.lower() for i in states_list])

df['match'] = df['state_name'].apply(lambda x: list(set([i.strip().lower() for i in x.split(',')]).intersection(
s)))

df['match']=df['match'].apply(lambda x: [i[0].upper() + i[1:] for i in x])

contains contains dataframe difflib pandas pandas python