如何使用 df.itertuples() 中的 Namedtuple Pandas 启用 row[col

问题描述

我们有一个包含许多列的 DataFrame，需要使用 df.itertuples() 遍历行。许多列名都在变量中，使用 getattr() 访问 namedtuple row 可以正常工作，但在许多列访问时可读性不高。有没有办法启用 row[col_name] 语法？例如，具有像这里 https://stackoverflow.com/a/65301971/360265?

这样的子类 NamedTuple

import pandas as pd

col_name = 'b'

df = pd.DataFrame([{'a': 1,'b': 2.},{'a': 3,'b': 4.}])
for row in df.itertuples():
    print(row.a)  # Using row._asdict() would disable this Syntax
    print(getattr(row,col_name))  # works fine but is not as readable as row[col_name]
    print(row[col_name]) # how to enable this Syntax?

在以下 row 类中包装 Frame 是一种解决方案，但不是真正的 Pythonic 解决方案。

class Frame:
    def __init__(self,namedtuple: NamedTuple):
        self.namedtuple = namedtuple

    def __getattr__(self,item):
        return getattr(self.namedtuple,item)

    def __getitem__(self,item)

解决方法

使用to_dict

import pandas as pd

col_name = 'b'

df = pd.DataFrame([{'a': 1,'b': 2},{'a': 3,'b': 4}])
for row in df.to_dict('records'):
    print(row[col_name])

输出

2
4

如果您想保留这两种符号，一种可能的方法是：

def iterdicts(tuples):
    yield from ((tup,tup._asdict()) for tup in tuples)


df = pd.DataFrame([{'a': 1,'b': 4}])
for tup,row in iterdicts(df.itertuples()):
    print(tup.a)
    print(row[col_name])

输出

与您类似的方法，只需使用 df.iterrows()

import pandas as pd

df = pd.DataFrame([{'a': 1,'b': 4}])
for index,row in df.iterrows():
    print(row.b) 
    print(getattr(row,'b')) 
    print(row['b'])

这些行是使用 Pandas 版本 0.20.3 和 1.0.1 测试的。

namedtuple pandas pandas python

如何使用 df.itertuples() 中的 Namedtuple Pandas 启用 row[col_name] 语法

问题描述

解决方法

相关问答