问题描述
嗨,我是Pyspark和S3的新手。我手头有问题。我有一个文件夹,其中包含子文件夹和文件,以及子文件夹中的文件(所有CSV),我需要创建一个新的数据框或csv文件,在其中我可以获取文件内容并创建为单个文件。以后需要将其读取到表中
任何人都可以帮助我。我在python中有代码,但不确定如何使用pyspark和S3
解决方法
尝试使用此option。
recursiveFileLookup –递归扫描目录中的文件。使用此选项将禁用分区发现。
df = spark.read.option("header","true").option("recursiveFileLookup","true").csv("s3://path/to/root/")