熊猫1.1.0的应用功能在原位置更改行

问题描述

我有一个小的DF（2行x 4cols）。一旦执行apply，该函数将根据某些逻辑添加额外的列。使用Pandas 0.24.2，我一直以df.apply(func,axis=1)的身份来做，我会得到我的额外专栏。到目前为止，一切都很好。

现在，熊猫1.1.0发生了一些奇怪的事情：当我apply时，第一行被处理两次，而第二行甚至都没有考虑。

我将显示原始DF，预期的DF和功能。我添加了一个print(row)，因此您可以看到DF的第一个row是如何重复的。

In [82]: df_attr_list                                                                                                                                                                                                                        
Out[82]: 
      name attrName string_value dict_value
0  FW12611  HW type         None       ALU1
1  FW12612  HW type         None       ALU1

现在，该函数及其输出...

def setFinalValue(row):
    rtrName      = row['name']
    attrName     = row['attrName'].replace(" ","")
    dict_value   = row['dict_value']
    string_value = row['string_value']
    finalValue   = 'N/A'

    if attrName in ['Val1','Val2','Val3']:
        finalValue = dict_value
    elif attrName in ['Val4','Val5',]:
        finalValue = string_value
    else:
        finalValue = "N/A"
    row['finalValue'] = finalValue

    print(row)
    
    return row

现在，在apply之后的输出...

In [83]: df_attr_list.apply(setFinalValue,axis=1)                                                                                                                                                                                           
name                       FW12611
attrName                   HW type
string_value                  None
dict_value                    ALU1
finalValue                    ALU1
Name: 0,dtype: object
name                       FW12611
attrName                   HW type
string_value                  None
dict_value                    ALU1
finalValue                    ALU1
Name: 1,dtype: object
Out[83]: 
      name attrName string_value dict_value finalValue
0  FW12611  HW type         None       ALU1       ALU1
1  FW12611  HW type         None       ALU1       ALU1

如您所见，添加了额外的列，但是原始DF的第一行被处理了两次，好像第二行不存在...

为什么会这样？

我已经在尝试使用熊猫1.1.0 ...

In [86]: print(pd.__version__)                                                                                                                                                                                                               
1.1.0

谢谢！

解决方法

根据Pandas 1.1.0 What's New Doc: apply and applymap on DataFrame evaluates first row/column only once，['\n',<div class="ex_example"> aa </div>,'\n','\n']不会对第一行进行两次评估。
问题是，返回.apply时将替换数据帧。
- 这似乎是BUG: DataFrame.apply with func altering row in-place #35633的结果
  - 另请参阅Backport PR #35633 on branch 1.1.x (BUG: DataFrame.apply with func altering row in-place) #35666
- 删除row并返回row['finalValue'] = finalValue而不是finalValue。
使用row调用函数。

df['finalValue'] = df.apply(setFinalValue,axis=1)

也可以使用np.select以矢量化方式实现此要求。

short_name = df["attrName"].str.replace(' ','')
conditions = [short_name.isin(['Val1','Val2','Val3']),short_name.isin(['Val4','Val5'])]
df["finalValue"] = np.select(conditions,df[["dict_value","string_value"]],"N/A")

输出：

      name attrName string_value dict_value finalValue
0  FW12611  HW type         None       ALU1        N/A
1  FW12612  HW type         None       ALU1        N/A

apply dataframe pandas python