Python:在数据框中使用相同的值填充特定的列,并删除无用的行

问题描述

假设我有这个数据框:

data3 = ['ID','ID','','']
data4 = [12,34,465,678,896,'']
data5 = [8798,67,2313,'']
data6 = [56,'']

df2 = pd.DataFrame(list(zip(data3,data4,data5,data6)),columns = ['Name','Data1','Data2','Data3'])
print(df2)

  Name Data1 Data2 Data3
0   ID    12  8798    56
1   ID    34    67    67
2        465  2313
3        678
4        896
5
6

我想用总是可以找到的相同值填充“名称”列,并在所有有值的行中填充,并在没有任何值的地方删除无用的行。所以我想得到这个结果:

  Name Data1 Data2 Data3
0   ID    12   8798   56
1   ID    34   67     67
2   ID    465  2313
3   ID    678
4   ID    896

任何人都有有效的想法吗?

谢谢

解决方法

如果是空字符串而不是NaN,则使用DataFrame.replace,然后使用DataFrame.dropna,并在Name列中最后用ffill向前填充缺失值: >

df2 = df2.replace('',np.nan)

df2 = df2.dropna(how='all')
df2['Name'] = df2['Name'].ffill()
print(df2)
  Name  Data1   Data2  Data3
0   ID   12.0  8798.0   56.0
1   ID   34.0    67.0   67.0
2   ID  465.0  2313.0    NaN
3   ID  678.0     NaN    NaN
4   ID  896.0     NaN    NaN
,

您可以使用df.replaceisna()all在所有行中放置Nan,并用Nan填充ffill()

In [2731]: df2 = df2.replace('',np.nan)
In [2756]: df2 = df2[~df2.isna().all(1)]
In [2733]: df2.Name = df2.Name.ffill()

In [2758]: df2
Out[2758]: 
  Name  Data1   Data2  Data3
0   ID   12.0  8798.0   56.0
1   ID   34.0    67.0   67.0
2   ID  465.0  2313.0    NaN
3   ID  678.0     NaN    NaN
4   ID  896.0     NaN    NaN