从包含 Pyspark 数据框中 100 个文件的目录中加载前 10 个 XML 文件

问题描述

我想在每次迭代中从包含 100 个文件的目录中加载前 10 个 XML 文件,并将已读取的那个 XML 文件删除到另一个目录。

到目前为止我在 pyspark 中的尝试。

li = ["/mnt/dev/tmp/xml/100_file/M800143.xml","/mnt/dev/tmp/xml/100_file/M8001422.xml"]
df1 = spark.read.format("com.databricks.spark.xml").option("rowTag","Quality").load(li) 
df1.show()

但我收到一个错误:IllegalArgumentException:必须为 XML 数据指定“路径”。

将XML文件的完整路径存储在列表中后,有什么方法可以读取文件吗? 或者请提出另一种方法。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...