如何在S3中的Pyspark中从带有子文件夹的文件夹创建带有CSV文件的新数据框

问题描述

嗨,我是Pyspark和S3的新手。我手头有问题。我有一个文件夹,其中包含子文件夹和文件,以及子文件夹中的文件(所有CSV),我需要创建一个新的数据框或csv文件,在其中我可以获取文件内容并创建为单个文件。以后需要将其读取到表中

任何人都可以帮助我。我在python中有代码,但不确定如何使用pyspark和S3

解决方法

尝试使用此option

recursiveFileLookup –递归扫描目录中的文件。使用此选项将禁用分区发现。

df = spark.read.option("header","true").option("recursiveFileLookup","true").csv("s3://path/to/root/")