python – 类型检查Pandas DataFrames

我想键入检查Pandas DataFrames,即我想指定DataFrame必须具有哪些列标签以及它们中存储的数据类型(dtype)类型.粗略的实现(受此question的启发)将如下工作:

from collections import namedtuple
Col = namedtuple('Col', 'label, type')

def dataframe_check(*specification):
    def check_accepts(f):
        assert len(specification) <= f.__code__.co_argcount
        def new_f(*args, **kwds):
            for (df, specs) in zip(args, specification):
                spec_columns = [spec.label for spec in specs]
                assert (df.columns == spec_columns).all(), \
                  'Columns dont match specs {}'.format(spec_columns)

                spec_dtypes = [spec.type for spec in specs]
                assert (df.dtypes == spec_dtypes).all(), \
                  'Dtypes dont match specs {}'.format(spec_dtypes)
            return f(*args, **kwds)
        new_f.__name__ = f.__name__
        return new_f
    return check_accepts

我不介意检查功能的复杂性,但它增加了许多样板代码.

@dataframe_check([Col('a', int), Col('b', int)],    #  df1
                 [Col('a', int), Col('b', float)],) #  df2
def f(df1, df2):
    return df1 + df2

f(df, df)

是否有更多Pythonic方式的类型检查DataFrames?看起来更像the new Python 3.6 static type-checking的东西?

是否有可能在mypy中实现它?

解决方法:

也许不是最pythonic的方式,但使用dict为您的规范可能会做到这一点(键作为列名称和值为data types):

import pandas as pd

df = pd.DataFrame(columns=['col1', 'col2'])
df['col1'] = df['col1'].astype('int')
df['col2'] = df['col2'].astype('str')

cols_dtypes_req = {'col1':'int', 'col2':'object'} #'str' dtype is 'object' in pandas

def check_df(dataframe, specs):
    for colname in specs:
        if colname not in dataframe:
            return 'Column missing.'
        elif dataframe[colname].dtype != specs[colname]:
            return 'Data type incorrect.'
    for dfcol in dataframe:
        if dfcol not in specs:
            return 'Unexpected dataframe column.'
    return 'Dataframe meets specifications.'

print(check_df(df, cols_dtypes_req))

相关文章

转载:一文讲述Pandas库的数据读取、数据获取、数据拼接、数...
Pandas是一个开源的第三方Python库,从Numpy和Matplotlib的基...
整体流程登录天池在线编程环境导入pandas和xrld操作EXCEL文件...
 一、numpy小结             二、pandas2.1为...
1、时间偏移DateOffset对象DateOffset类似于时间差Timedelta...
1、pandas内置样式空值高亮highlight_null最大最小值高亮背景...