我们如何从Apache Spark读取非常大的xml文件?

问题描述

我想在Spark上读取非常大的xml文件数据集(每个xml文件大小= 1TB),并对每个文件启动解析过程,以便最终将csv文件作为表。

我知道我们可以在Hadoop中使用StreamXmlRecordReader并处理xml,然后从spark中使用HDFS中的xml数据块,也可以从databricks中使用spark-xml库,使用java Mahout XmlInputFormat(Hadoop)解析xml,一些说对于大型xml文件,hadoop方法更好,因此需要了解解决此问题的最佳方法

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)