如何从HDFS读取pyspark中的文件

问题描述

我使用 sqoop 将数据从 MysqL 摄取到 hdfs。

enter image description here

我想在 pyspark 中读取此文件。如何读取 part_m_0000 以及如何在 hdfs 中找到文件路径。

解决方法

如果可能,Spark 可以(并且应该)读取整个目录

如何在hdfs中找到文件路径。

路径是 /user/root/etl_project,如您所示,我确定也在您的 Sqoop 命令中

如何读取 part_m_0000

这最终取决于您告诉 Sqoop 写入的输出格式。你应该更喜欢写入 Parquet 文件,Spark 有一个本地读取器。

spark.read.parquet("/user/root/etl_project")

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...