问题描述
假设我有这个数据框:
data3 = ['ID','ID','','']
data4 = [12,34,465,678,896,'']
data5 = [8798,67,2313,'']
data6 = [56,'']
df2 = pd.DataFrame(list(zip(data3,data4,data5,data6)),columns = ['Name','Data1','Data2','Data3'])
print(df2)
Name Data1 Data2 Data3
0 ID 12 8798 56
1 ID 34 67 67
2 465 2313
3 678
4 896
5
6
我想用总是可以找到的相同值填充“名称”列,并在所有有值的行中填充,并在没有任何值的地方删除无用的行。所以我想得到这个结果:
Name Data1 Data2 Data3
0 ID 12 8798 56
1 ID 34 67 67
2 ID 465 2313
3 ID 678
4 ID 896
任何人都有有效的想法吗?
谢谢
解决方法
如果是空字符串而不是NaN
,则使用DataFrame.replace
,然后使用DataFrame.dropna
,并在Name
列中最后用ffill
向前填充缺失值: >
df2 = df2.replace('',np.nan)
df2 = df2.dropna(how='all')
df2['Name'] = df2['Name'].ffill()
print(df2)
Name Data1 Data2 Data3
0 ID 12.0 8798.0 56.0
1 ID 34.0 67.0 67.0
2 ID 465.0 2313.0 NaN
3 ID 678.0 NaN NaN
4 ID 896.0 NaN NaN
,
您可以使用df.replace
,isna()
和all
在所有行中放置Nan
,并用Nan
填充ffill()
:
In [2731]: df2 = df2.replace('',np.nan)
In [2756]: df2 = df2[~df2.isna().all(1)]
In [2733]: df2.Name = df2.Name.ffill()
In [2758]: df2
Out[2758]:
Name Data1 Data2 Data3
0 ID 12.0 8798.0 56.0
1 ID 34.0 67.0 67.0
2 ID 465.0 2313.0 NaN
3 ID 678.0 NaN NaN
4 ID 896.0 NaN NaN