读取多个 csv 文件并将它们转换为系列对象的优雅方式

问题描述

我有 5 个 csv 文件要读取,但使用该 csv 文件的列名和操作保持不变。

例如,在我的代码中,我执行以下 3 个步骤(但对所有 5 个文件重复此操作)

a) 我读取 csv 并将它们存储在数据框中

b) 将数据框内容转换为大写

c) 使用子集 = sourceName删除重复项

d) 创建一个系列对象

test_map = pd.read_csv('test_map.csv')
test_map = test_map .apply(lambda x: x.astype(str).str.upper())
test_map = test_map .drop_duplicates(subset=['sourceName'])
test_Id_map = test_map.set_index(['sourceName'])['Id']

val_op_map = pd.read_csv('op_val_map.csv')
val_op_map = val_op_map.apply(lambda x: x.astype(str).str.upper())
val_op_map = val_op_map.drop_duplicates(subset=['sourceName'])
val_op_id_map = val_op_map.set_index(['sourceName'])['Id']

test2_map = pd.read_csv('test2_map.csv')
test2_map = test2_map.apply(lambda x: x.astype(str).str.upper())
test2_map = test2_map.drop_duplicates(subset=['sourceName'])
test2_id_map = test2_map.set_index(['sourceName'])['Id']

visit_map = pd.read_excel('visit_map.xlsx')
visit_map = visit_map.apply(lambda x: x.astype(str).str.upper())
visit_map = visit_map.drop_duplicates(subset=['sourceName'])
visit_Id_map = visit_map.set_index(['sourceName'])['Id']

demo_map = pd.read_excel('demo_map.xlsx')
demo_map = demo_map.apply(lambda x: x.astype(str).str.upper())
demo_map = demo_map.drop_duplicates(subset=['sourceName'])
demo_id_map = demo_map.set_index(['sourceName'])['Id']

我觉得为不同的文件多次重复同一行代码既不高效也不优雅。有没有其他更好的方法来写这个?

我最终希望有 5 个系列对象作为输出,它们是 test_Id_mapdemo_id_mapvisit_id_maptest2_id_mapval_op_id_map

解决方法

假设你想要一个处理过的数据框列表以及它们的 id 映射,你可以这样做:

filenames = ['test_map.csv','op_val_map.csv','test2_map.csv','visit_map.xlsx','demo_map.xlsx']
def preprocessing(fname):
  df= pd.read_csv(fname)
  df= df.apply(lambda x: x.astype(str).str.upper())
  df= df.drop_duplicates(subset=['sourceName'])
  df_Id_map = df.set_index(['sourceName'])['Id']
  return df,df_Id_map

processed = [prerprocessing(fname) for fname in filenames]

编辑: 如果要处理不同的输入文件类型,可以将其作为条件添加到预处理函数中,例如:

def preprocessing(fname):
  if fname.endswith('.csv'):
    df= pd.read_csv(fname)
    df= df.apply(lambda x: x.astype(str).str.upper())
    df= df.drop_duplicates(subset=['sourceName'])
    df_Id_map = df.set_index(['sourceName'])['Id']
  elif fname.endswith('.xlsx'):
    #do your things
  return df,df_Id_map

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...