如何使用PySpark读取目录下的Parquet文件?

问题描述

我已在线搜索,但在线提供的解决方案无法解决我的问题。我正在尝试读取分层目录下的实木复合地板文件。我收到以下错误。

'无法推断Parquet的架构。必须手动指定。'

我的目录结构如下: dbfs:/ mnt / sales / region / country / 2020/08/04

year文件夹下的月份中将有多个子目录,几天内的月份中将具有后续的子目录。

我只想在销售级别阅读它们,这应该对我来说对所有地区都是如此,并且我已经尝试了以下两个代码,但是它们都不起作用。请帮助我。

spark.read.parquet("dbfs:/mnt/sales/*")

spark.read.parquet("dbfs:/mnt/sales/")

解决方法

您可以尝试此选项吗?

df = spark.read.option("header","true").option("recursiveFileLookup","true").parquet("/path/to/root/")

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...