问题描述
我有一个带有“收入”和“数量”的数据框。 两列均应为数字,但包含一些在转换为数字之前应清除的垃圾,例如“,”等(最初为“对象”)。 以下两行可以解决问题:
data['revenue'] = pd.to_numeric(data['revenue'].apply(lambda x: re.sub("[^0-9]","",x)))
data['quantity'] = pd.to_numeric(data['quantity'].apply(lambda x: re.sub("[^0-9]",x)))
data.dtypes
收入int64
数量int64
现在,我想知道是否有一行代码可以做到这一点。 我尝试了以下方法:
data = data.apply(lambda x: pd.to_numeric(re.sub("[^0-9]",x)) if x.name in [['revenue','quantity']] else x)
那没有将对象类型更改为Int。然后我尝试了:
data[['revenue','quantity']] = pd.to_numeric(data[['revenue','quantity']].apply(lambda x: re.sub("[^0-9]",x)))
得到错误:
TypeError :(“预期的字符串或类似字节的对象”,“发生在索引收入处”)
有什么想法比两行代码更有效?
解决方法
尝试
data = data.apply(lambda x: pd.to_numeric(x.apply(lambda v: re.sub("[^0-9]","",v))) if x.name in ['revenue','quantity'] else x)
,
我通常只是做
for col in ['revenue','quantity']:
data[col] = data[col].apply(function)
这不是一个班轮,但我认为您在行中失去的东西会赢得可读性。
, data['revenue']
是一个序列,并且用该序列的数据项调用apply
。但是data[['revenue','quantity']]
是一个数据帧,并且apply
与Series
对象一起被调用。依次两次,依次为data['revenue']
,然后为data['quantity']
。 x
中的re.sub("[^0-9]",x)
是Series
对象,这就是它失败的原因。
您可以将lambda更改为
lambda s: s.apply(re.sub("[^0-9]",x))
但是Dataframe.replace
方法接受正则表达式,因此根本不需要执行apply
。
data[['revenue','quantity']].replace("[^0-9]",regex=True)
to_numeric
不适用于数据帧,但astype
适用。因此,完整的转换将是(假设您想要int64)
data[['revenue','quantity']] = data[['revenue','quantity']].replace(
"[^0-9]",regex=True).astype('int64')
,
我的主张是:
data[['revenue','quantity']].\
applymap(lambda v: pd.to_numeric(re.sub("[^0-9]",v)))
实际上是单排的,但是出于可读性考虑,由于屏幕宽度有限, 分成两行。