使用大量文件时标记数据时出错

问题描述

我正在尝试从 > 3,000 个文件的列表中为每个文件创建一个数据框。当我使用少量文件时,我的代码工作正常,但是当我尝试更大的数字(> 300 个文件)时,我不断收到相同的错误

ParserError:标记数据时出错。 C 错误:第 4 行应为 1 个字段,看到 5

这是脚本:

all_files_df = [pd.read_table("/data/lab/datasets/Drug_CyTOF_screening/"+x,sep='\t') for x in all_files]

有谁知道是什么导致了这个问题?

谢谢!

解决方法

要调试,请尝试以下操作:

data = []
for x in all_files:
   try:
       df = pd.read_table("/data/lab/datasets/Drug_CyTOF_screening/"+x,sep='\t')
       data.append(df)
   except pd.errors.ParseError as err:
       print(f"'{x}' contains errors. skipped")
       print(err)