如何使用Python将函数应用于多个列?

问题描述

我有一个带有“收入”和“数量”的数据框。 两列均应为数字,但包含一些在转换为数字之前应清除的垃圾,例如“,”等(最初为“对象”)。 以下两行可以解决问题:

data['revenue'] = pd.to_numeric(data['revenue'].apply(lambda x: re.sub("[^0-9]","",x)))
data['quantity'] = pd.to_numeric(data['quantity'].apply(lambda x: re.sub("[^0-9]",x)))
data.dtypes

收入int64

数量int64

现在,我想知道是否有一行代码可以做到这一点。 我尝试了以下方法:

data = data.apply(lambda x: pd.to_numeric(re.sub("[^0-9]",x)) if x.name in [['revenue','quantity']] else x)

那没有将对象类型更改为Int。然后我尝试了:

data[['revenue','quantity']] = pd.to_numeric(data[['revenue','quantity']].apply(lambda x: re.sub("[^0-9]",x)))

得到错误:

TypeError :(“预期的字符串或类似字节的对象”,“发生在索引收入处”)

有什么想法比两行代码更有效?

解决方法

尝试

data = data.apply(lambda x: pd.to_numeric(x.apply(lambda v: re.sub("[^0-9]","",v))) if x.name in ['revenue','quantity'] else x)
,

我通常只是做

for col in ['revenue','quantity']:
    data[col] = data[col].apply(function)

这不是一个班轮,但我认为您在行中失去的东西会赢得可读性。

,

data['revenue']是一个序列,并且用该序列的数据项调用apply。但是data[['revenue','quantity']]是一个数据帧,并且applySeries对象一起被调用。依次两次,依次为data['revenue'],然后为data['quantity']x中的re.sub("[^0-9]",x)Series对象,这就是它失败的原因。

您可以将lambda更改为

lambda s: s.apply(re.sub("[^0-9]",x))

但是Dataframe.replace方法接受正则表达式,因此根本不需要执行apply

data[['revenue','quantity']].replace("[^0-9]",regex=True)

to_numeric不适用于数据帧,但astype适用。因此,完整的转换将是(假设您想要int64)

data[['revenue','quantity']] = data[['revenue','quantity']].replace(
    "[^0-9]",regex=True).astype('int64')
,

我的主张是:

data[['revenue','quantity']].\
    applymap(lambda v: pd.to_numeric(re.sub("[^0-9]",v)))

实际上是单排的,但是出于可读性考虑,由于屏幕宽度有限, 分成两行。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...