如何使用Python将函数应用于多个列？

问题描述

我有一个带有“收入”和“数量”的数据框。两列均应为数字，但包含一些在转换为数字之前应清除的垃圾，例如“，”等（最初为“对象”）。以下两行可以解决问题：

data['revenue'] = pd.to_numeric(data['revenue'].apply(lambda x: re.sub("[^0-9]","",x)))
data['quantity'] = pd.to_numeric(data['quantity'].apply(lambda x: re.sub("[^0-9]",x)))
data.dtypes

收入int64

数量int64

现在，我想知道是否有一行代码可以做到这一点。我尝试了以下方法：

data = data.apply(lambda x: pd.to_numeric(re.sub("[^0-9]",x)) if x.name in [['revenue','quantity']] else x)

那没有将对象类型更改为Int。然后我尝试了：

data[['revenue','quantity']] = pd.to_numeric(data[['revenue','quantity']].apply(lambda x: re.sub("[^0-9]",x)))

得到错误：

TypeError ：（“预期的字符串或类似字节的对象”，“发生在索引收入处”）

有什么想法比两行代码更有效？

解决方法

尝试

data = data.apply(lambda x: pd.to_numeric(x.apply(lambda v: re.sub("[^0-9]","",v))) if x.name in ['revenue','quantity'] else x)

我通常只是做

for col in ['revenue','quantity']:
    data[col] = data[col].apply(function)

这不是一个班轮，但我认为您在行中失去的东西会赢得可读性。

data['revenue']是一个序列，并且用该序列的数据项调用apply。但是data[['revenue','quantity']]是一个数据帧，并且apply与Series对象一起被调用。依次两次，依次为data['revenue']，然后为data['quantity']。 x中的re.sub("[^0-9]",x)是Series对象，这就是它失败的原因。

您可以将lambda更改为

lambda s: s.apply(re.sub("[^0-9]",x))

但是Dataframe.replace方法接受正则表达式，因此根本不需要执行apply。

data[['revenue','quantity']].replace("[^0-9]",regex=True)

to_numeric不适用于数据帧，但astype适用。因此，完整的转换将是（假设您想要int64）

data[['revenue','quantity']] = data[['revenue','quantity']].replace(
    "[^0-9]",regex=True).astype('int64')

我的主张是：

data[['revenue','quantity']].\
    applymap(lambda v: pd.to_numeric(re.sub("[^0-9]",v)))

实际上是单排的，但是出于可读性考虑，由于屏幕宽度有限，分成两行。

numeric pandas python string string