问题描述
我是python的新手。我有一个包含许多子文件夹的文件夹,其中包含100 + GB数据的Parquet文件。一些文件的大小也以GB为单位。我试图列出所有包含列名称的文件,例如“ Email”(开头,结尾或中间)case = False。输出应为.txt文件。我已经尝试了以下代码,但无法正常工作。有人可以帮忙吗?
inp=["Email","Mail"]
op=[]
for elem in listOfFiles:
if(elem.endswith(".parquet")):
full_path=elem
filename = elem.split(".")
filename = filename[0]
pfile=pq.read_table(elem)
stri = str(pfile.schema)
for val in inp:
if(stri.count(val)>0):
op.append(full_path)
解决方法
inp=["Email","Mail"]
op=[]
for elem in listOfFiles:
if(elem.endswith(".parquet")):
full_path=elem
filename = elem.split(".")
filename = filename[0]
pfile=pq.read_table(elem)
stri = str(pfile.schema)
for val in inp:
if(stri.count(val)>0):
op.append(full_path)
尝试一下。如果您遇到错误,请在此处发布,我可以进一步解决问题。