问题描述
我正在清理数据框以训练机器学习模型,我发现某些条目在一列中有两个不同的值。例如:
A | B |
---|---|
1234 | 脚 |
1234 | 栏 |
由于两个条目的 A 列中的值都是 1234
,因此 B 列中的值在两种情况下都应为 foo
(或 bar
)。
我为此尝试了一种蛮力方法:
for index1,row1 in df.iterrows():
for index2,row2 in df.iterrows():
if (row1['A'] == row2['A']) and ((row1['B'] != row2['B'])):
print(f'Found duplicated A with different B!')
row1['B'] == row2['B']
row1['C'] == row2['C'] == False
但可能有一种我看不到的更简单的方法来做到这一点。大熊猫有什么办法可以解决这个问题吗?
解决方法
您可以使用 groupby.transform('first')
(或 'last'
):
df['B'] = df.groupby('A')['B'].transform('first')