问题描述
我使用 sqoop 将数据从 MysqL 摄取到 hdfs。
我想在 pyspark 中读取此文件。如何读取 part_m_0000 以及如何在 hdfs 中找到文件路径。
解决方法
如果可能,Spark 可以(并且应该)读取整个目录
如何在hdfs中找到文件路径。
路径是 /user/root/etl_project
,如您所示,我确定也在您的 Sqoop 命令中
如何读取 part_m_0000
这最终取决于您告诉 Sqoop 写入的输出格式。你应该更喜欢写入 Parquet 文件,Spark 有一个本地读取器。
spark.read.parquet("/user/root/etl_project")