问题描述
我们有一个包含许多列的 DataFrame,需要使用 df.itertuples() 遍历行。许多列名都在变量中,使用 getattr() 访问 namedtuple row
可以正常工作,但在许多列访问时可读性不高。有没有办法启用 row[col_name]
语法?例如,具有像这里 https://stackoverflow.com/a/65301971/360265?
import pandas as pd
col_name = 'b'
df = pd.DataFrame([{'a': 1,'b': 2.},{'a': 3,'b': 4.}])
for row in df.itertuples():
print(row.a) # Using row._asdict() would disable this Syntax
print(getattr(row,col_name)) # works fine but is not as readable as row[col_name]
print(row[col_name]) # how to enable this Syntax?
在以下 row
类中包装 Frame
是一种解决方案,但不是真正的 Pythonic 解决方案。
class Frame:
def __init__(self,namedtuple: NamedTuple):
self.namedtuple = namedtuple
def __getattr__(self,item):
return getattr(self.namedtuple,item)
def __getitem__(self,item)
解决方法
使用to_dict
import pandas as pd
col_name = 'b'
df = pd.DataFrame([{'a': 1,'b': 2},{'a': 3,'b': 4}])
for row in df.to_dict('records'):
print(row[col_name])
输出
2
4
如果您想保留这两种符号,一种可能的方法是:
def iterdicts(tuples):
yield from ((tup,tup._asdict()) for tup in tuples)
df = pd.DataFrame([{'a': 1,'b': 4}])
for tup,row in iterdicts(df.itertuples()):
print(tup.a)
print(row[col_name])
输出
1
2
3
4
,
与您类似的方法,只需使用 df.iterrows()
import pandas as pd
df = pd.DataFrame([{'a': 1,'b': 4}])
for index,row in df.iterrows():
print(row.b)
print(getattr(row,'b'))
print(row['b'])
这些行是使用 Pandas 版本 0.20.3 和 1.0.1 测试的。