如何使用 df.itertuples() 中的 Namedtuple Pandas 启用 row[col_name] 语法

问题描述

我们有一个包含许多列的 DataFrame,需要使用 df.itertuples() 遍历行。许多列名都在变量中,使用 getattr() 访问 namedtuple row 可以正常工作,但在许多列访问时可读性不高。有没有办法启用 row[col_name] 语法?例如,具有像这里 https://stackoverflow.com/a/65301971/360265?

这样的子类 NamedTuple
import pandas as pd

col_name = 'b'

df = pd.DataFrame([{'a': 1,'b': 2.},{'a': 3,'b': 4.}])
for row in df.itertuples():
    print(row.a)  # Using row._asdict() would disable this Syntax
    print(getattr(row,col_name))  # works fine but is not as readable as row[col_name]
    print(row[col_name]) # how to enable this Syntax?

在以下 row 类中包装 Frame 是一种解决方案,但不是真正的 Pythonic 解决方案。

class Frame:
    def __init__(self,namedtuple: NamedTuple):
        self.namedtuple = namedtuple

    def __getattr__(self,item):
        return getattr(self.namedtuple,item)

    def __getitem__(self,item)

解决方法

使用to_dict

import pandas as pd

col_name = 'b'

df = pd.DataFrame([{'a': 1,'b': 2},{'a': 3,'b': 4}])
for row in df.to_dict('records'):
    print(row[col_name])

输出

2
4

如果您想保留这两种符号,一种可能的方法是:

def iterdicts(tuples):
    yield from ((tup,tup._asdict()) for tup in tuples)


df = pd.DataFrame([{'a': 1,'b': 4}])
for tup,row in iterdicts(df.itertuples()):
    print(tup.a)
    print(row[col_name])

输出

1
2
3
4
,

与您类似的方法,只需使用 df.iterrows()

import pandas as pd

df = pd.DataFrame([{'a': 1,'b': 4}])
for index,row in df.iterrows():
    print(row.b) 
    print(getattr(row,'b')) 
    print(row['b']) 

这些行是使用 Pandas 版本 0.20.3 和 1.0.1 测试的。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...