无法使用Pyspark从minio S3读取实木复合地板文件

问题描述

我有一个非常简单的Pyspark作业,可以从Minio S3存储桶中读取实木复合地板文件。 Minio + Jupyter Notebook在docker-compose中运行

 spark = SparkSession.builder.getOrCreate()
 
spark.sparkContext._jsc\
     .hadoopConfiguration().set("fs.s3a.access.key","***********")
spark.sparkContext._jsc\
     .hadoopConfiguration().set("fs.s3a.secret.key","***********")
spark.sparkContext._jsc\
      .hadoopConfiguration().set("fs.s3a.endpoint","http://127.0.0.1:9000")
spark.sparkContext._jsc\
      .hadoopConfiguration().set("spark.hadoop.fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")
spark.sparkContext._jsc\
      .hadoopConfiguration().set("spark.hadoop.fs.s3a.path.style.access","true")
spark.sparkContext._jsc\
      .hadoopConfiguration().set("fs.s3a.multipart.size","104857600")


measures = spark.read.parquet("s3a://measures/6200703043294113.parquet")

在运行时出现错误:

Py4JJavaError:调用o153.parquet时发生错误。 :java.lang.IllegalArgumentException

从另一面看-我可以从文件系统本地读取相同的实木复合地板文件。

我想念什么吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)